一部编年史物质 → 智能

从沙子到 Mythos

智能不是凭空出现的。它从一粒最普通的沙子里,一步一步长出来: 先是可控的开关,然后是会记忆的机器,再是会学习的网络, 最后成为 2026 年那个最强的大模型——Claude Mythos。

开始旅程

向下滚动 ↓

全景五幕跃迁

五次跃迁

每一幕都是一次"从做不到到做得到"的跳变:上一幕的成果,成了下一幕的地基。

一 · 物质变成开关

数十亿年前 – 1947

沙子 · 半导体
掺杂 · 二极管
三极管 · 0/1

二 · 开关变成机器

1950s – 1971

门电路 · 加法器
锁存器 · 触发器 · 时钟
流水线 · 冯诺依曼 · 芯片

三 · 机器变成算力

1980s – 2012

CPU · GPU
CUDA · AlexNet
矩阵

四 · 算力变成学习

1943 – 2016

神经元 · 反向传播
MNIST · 词嵌入
序列模型

五 · 学习变成语言

2017 – 2026

注意力 · Transformer
语言模型 · Scaling Law
训练 · 工程 · Mythos

第一幕

物质,变成开关

一块石头凭什么能算数?因为人类学会了让一小片硅,在"通"与"断"之间听话地切换。

第一幕 · 物质约数十亿年前

一粒沙子

故事的起点,是海滩上最不起眼的东西:沙。

FIG.01 — 硅,藏在每一粒沙里

第一幕 · 物质19 世纪 · 法拉第等

半导体:关键是可变

硅的价值不在"能导电",而在它能被操控导不导电。

FIG.02 — 可切换 = 一切的前提

第一幕 · 物质20 世纪初

掺杂:给硅一个倾向

纯硅太"中立"。人为掺入杂质,才让它有了性格。

FIG.03 — N 型给电子,P 型收电子

第一幕 · 物质1904 · 弗莱明

二极管:电流只走一个方向

把 N 和 P 贴在一起,交界处诞生了第一个"规则"。

FIG.04 — 电流的单行道

第一幕 · 物质1947 · 贝尔实验室

三极管:用电流控制电流

整段历史里最关键的一次发明,就发生在这一年。

FIG.05 — 可被控制的开关

第一幕 → 第二幕抽象层

0 和 1:开关的两种姿态

从物理到信息,只差最后这一步抽象。

FIG.06 — 物理电压 → 抽象比特

第二幕

开关,变成机器

单个开关什么也不是。可当亿万个开关按规则连起来、还学会了记忆和节拍,它们就成了一台会执行指令的计算机。

第二幕 · 机器1930s–1950s

门电路:开关学会判断

几个晶体管一组合,就能表达"逻辑"。

FIG.07 — 与 / 或 / 非

第二幕 · 机器1950s

加法器:逻辑开始算术

门电路一接,"计算"就冒出来了。

FIG.08 — 半加器:门 → 算术

第二幕 · 机器1950s

锁存器:电路第一次记住

会算还不够,机器还得会"记住刚才"。

FIG.09 — 反馈 = 记忆

第二幕 · 机器1950s–1960s

触发器与时钟

让亿万个记忆单元整齐划一地前进,靠的是一个节拍。

时钟↑瞬间: Q ← D

时钟:机器的心跳

第二幕 · 机器1960s–1980s

流水线:五步接力

让一条指令分几步走,还能同时处理好几条。

FIG.10 — 指令流水线

第二幕 · 机器1945 起

冯诺依曼:程序也是数据

为什么一台电脑能装任何软件?答案在 1945 年的一份草稿里。

FIG.11 — 存储程序 = 可编程

第二幕 · 收束1971 · Intel 4004

芯片:硅上长出一座城

所有这些,最终被压进指甲盖大的一块硅。

FIG.12 — 微处理器诞生

第三幕

机器,变成算力

CPU 擅长一步步地"想"。可有一天人们发现:让智能长出来,需要的不是一个聪明大脑,而是同时算完千万道乘法的蛮力。

第三幕 · 算力1980s–2000s

CPU 与 GPU

两种芯片,两种哲学:一个求快,一个求多。

第 21 章 · GPU 为并行而生

擅长串行 · 低延迟

擅长并行 · 高吞吐

第三幕 · 算力2006 · NVIDIA CUDA

CUDA:让显卡不止渲染画面

GPU 本是显卡——生来只为渲染游戏和 3D 画面。CUDA 把这身蛮力,交到了所有程序员手里。

FIG.13 — 算力民主化

第三幕 → 第四幕表示层

矩阵:一切都变成一张表

GPU 擅长的"洪流",到底是什么形状?

第 1 章 · 向量与矩阵

FIG.14 — 计算的通用形状

第四幕

算力,变成学习

有了海量算力,还要有一种机制:不靠人写死规则,而是让机器自己从错误里,把亿万个参数一点点调对。

第四幕 · 学习1943 / 1958

神经元:数字有了倾向

最小的"会判断"的单元,只是一道加权求和。

第 2 章 · 一个神经元

FIG.15 — 最小的积木

第四幕 · 学习1986 · Rumelhart 等

反向传播:让错误回流

网络怎么知道每个权重该往哪调?让误差自己走回去。

第 6 章 · 反向传播

FIG.16 — 网络自己学

第四幕 · 学习1998

MNIST:让训练看得见

抽象的"学习",在这个任务里第一次能亲手跑通。

第 23 章 · MNIST 实战

FIG.17 — 训练的闭环

第四幕 · 学习2012 · ImageNet

AlexNet:深度学习引爆

神经元、反向传播、闭环都有了——就差一次让全世界相信的胜利。

FIG.18 — 深度学习引爆

第四幕 · 学习2013 · word2vec

词嵌入:词有了坐标

图能被计算,那"词"呢?先把词变成向量。

第 15 章 · 词嵌入与 word2vec

FIG.19 — 语义坐标系

第四幕 → 第五幕1997 · LSTM / 2014

序列模型:按时间读句子

一句话有先后顺序。怎么让机器"边读边记"?

第 14 章 · RNN 与 LSTM

FIG.20 — 串行,且会遗忘

第五幕

学习,变成语言

2017 年一个想法改变了一切:让每个词直接看向所有词。从此规模、数据、算力叠加起来,机器开始像懂了语言。

第五幕 · 语言2017 · Attention Is All You Need

注意力:意义来自关系

与其一个字一个字顺着记,不如让每个词直接看向全句。

第 17 章 · 注意力机制

FIG.21 — 每个词看全句

第五幕 · 语言2017

Transformer:可堆叠的积木

把注意力包成一块标准件,就能无限往上摞。

第 18 章 · Transformer 的完整结构

FIG.22 — 可无限堆叠

第五幕 · 语言2018–2019 · GPT / BERT

语言模型:预测下一个词

目标简单到近乎朴素,能力却从中长了出来。

第 19 章 · 字符级语言模型

FIG.23 — 朴素目标,涌现能力

第五幕 · 语言2018 → 2022 · OpenAI

GPT:把这条路推到底

同样是"预测下一个词",OpenAI 只做一件事——把它拼命做大。

第 20 章 · 通往大模型

FIG.24 — 逐代把规模推到底

第五幕 · 语言2020 · Kaplan / Chinchilla

规模定律:大力真的出奇迹

"堆大"不是蛮干,它背后有一条可预测的曲线。

第 20 章 · 规模化

FIG.25 — 可预测的提升

第五幕 · 语言2022 起

大规模训练:模型是"炼"出来的

一个可用的大模型,要分好几个阶段"炼"。

第 20 章 · 预训练 + 后训练

FIG.26 — 预训练 + 后训练

第五幕 · 语言2023 起

工程:让它真的跑得起来

模型一大,难题就从"怎么算"变成"放不放得下"。

第 21 章 · 工程与基础设施

FIG.27 — 撑起庞然大物

终点 · Claude Mythos2026 · Anthropic

Mythos

2026 年 4 月,Anthropic 发布 Claude Mythos——迄今最强的通用大模型。名字跳出了 Haiku / Sonnet / Opus 的文学体裁,取希腊语的"神话"。

它的底层,仍是这一路走来的那块 Transformer 积木——只是规模、训练与评估被推到极致, 能力出现质变:SWE-bench Verified 93.9%、USAMO 数学 97.6%, 七周内自主发现 2000+ 未知漏洞,还能把弱点链成可用 exploit。强到 Anthropic 不敢公开,只通过 Project Glasswing 面向安全伙伴。

从一粒沙里的硅,到会讲述世界的语言——这段旅程,收束在它这里。

走进《从神经元到大模型》再看一遍