一部编年史物质 → 智能

从沙子到 Mythos

智能不是凭空出现的。它从一粒最普通的沙子里,一步一步长出来: 先是可控的开关,然后是会记忆的机器,再是会学习的网络, 最后成为 2026 年那个最强的大模型——Claude Mythos

向下滚动 ↓

全景五幕跃迁

五次跃迁

每一幕都是一次"从做不到到做得到"的跳变:上一幕的成果,成了下一幕的地基。

一 · 物质变成开关

数十亿年前 – 1947

  • 沙子 · 半导体
  • 掺杂 · 二极管
  • 三极管 · 0/1

二 · 开关变成机器

1950s – 1971

  • 门电路 · 加法器
  • 锁存器 · 触发器 · 时钟
  • 流水线 · 冯诺依曼 · 芯片

三 · 机器变成算力

1980s – 2012

  • CPU · GPU
  • CUDA · AlexNet
  • 矩阵

四 · 算力变成学习

1943 – 2016

  • 神经元 · 反向传播
  • MNIST · 词嵌入
  • 序列模型

五 · 学习变成语言

2017 – 2026

  • 注意力 · Transformer
  • 语言模型 · Scaling Law
  • 训练 · 工程 · Mythos

第 一 幕

物质,变成开关

一块石头凭什么能算数?因为人类学会了让一小片硅,在"通"与"断"之间听话地切换。

第一幕 · 物质约数十亿年前

一粒沙子

故事的起点,是海滩上最不起眼的东西:沙。

何时地壳形成以来,硅就是地表含量第二高的元素,大量以二氧化硅(SiO₂)的形式躺在沙子里。
原理沙的主要成分是硅和氧牢牢锁成的晶体。提纯后的单晶硅,原子排列整齐、性质稳定,是天然的"计算基材"。
为什么芯片、神经网络、大模型,追到最底层都要有一种又便宜又可控的材料——硅正好是。
Si 一个硅原子 · 四个氧原子
FIG.01 — 硅,藏在每一粒沙里
第一幕 · 物质19 世纪 · 法拉第等

半导体:关键是可变

硅的价值不在"能导电",而在它能被操控导不导电。

何时19 世纪起,人们陆续发现某些材料的导电性会随温度、光照、杂质剧烈变化——"半导体"由此得名。
原理纯硅每个原子有 4 个价电子,刚好互相锁死,几乎不导电;但只要外界轻轻一推(电场、杂质),它就能翻面变导体。
为什么金属永远导电、橡胶永远绝缘,都没法"控制"。只有能在通/断之间切换的材料,才能拿来做开关、做计算。
导体永远通 半导体通 ⇄ 断 绝缘体永远断 能切换的,才能拿来计算
FIG.02 — 可切换 = 一切的前提
第一幕 · 物质20 世纪初

掺杂:给硅一个倾向

纯硅太"中立"。人为掺入杂质,才让它有了性格。

何时20 世纪初半导体物理成熟后,"掺杂"成为可控工艺,为后来的二极管、三极管铺路。
原理掺入磷 → 多出自由电子,成 N 型(带负载流子);掺入硼 → 多出空位,成 P 型(带正载流子)。
为什么要"控制"电流,先得有不对称:一边想给电子、一边想要电子。把两者贴一起,才有可操纵的边界。
N 型 · 多电子 P 型 · 多空位 同样的硅,掺出相反的倾向
FIG.03 — N 型给电子,P 型收电子
第一幕 · 物质1904 · 弗莱明

二极管:电流只走一个方向

把 N 和 P 贴在一起,交界处诞生了第一个"规则"。

何时1904 年真空管二极管问世;后来半导体 PN 结二极管取而代之,更小更省电。
原理PN 交界形成"内建电场"。外加电压方向与它一致 → 导通;相反 → 阻断。这就是"正向通、反向断"。
为什么电流第一次被物理规则"驯服"成单行道。但它只会认死方向,不能被外部信号控制——还差一只"手"。
正向 · 通 ✓ 反向 · 断 ✕
FIG.04 — 电流的单行道
第一幕 · 物质1947 · 贝尔实验室

三极管:用电流控制电流

整段历史里最关键的一次发明,就发生在这一年。

何时1947 年冬,贝尔实验室做出第一只晶体管,三位发明者后来拿了诺贝尔物理学奖。
原理三层掺杂(NPN)。基极一点微小电流,就能控制集电极大得多的电流——像用细水管的阀门,控制主管道的洪流。
为什么它同时是放大器可被信号控制的开关。可控开关 = 现代计算的最小积木,一切从这里起。
大电流 基极(控制) iB 小信号 → 开/关一条大电流
FIG.05 — 可被控制的开关
第一幕 → 第二幕抽象层

0 和 1:开关的两种姿态

从物理到信息,只差最后这一步抽象。

何时与晶体管普及同步——1940s 起,布尔代数与二进制成为数字电路的通用语言。
原理规定:低电压 = 0,高电压 = 1。一个晶体管的"断/通",就是一个比特
为什么用两个离散值(而非连续电压)最抗噪、可堆叠。从此文字、图像、声音,原则上都能写成一长串 0 和 1。
断 / 低电压0 通 / 高电压1 一个开关 = 一个比特
FIG.06 — 物理电压 → 抽象比特

第 二 幕

开关,变成机器

单个开关什么也不是。可当亿万个开关按规则连起来、还学会了记忆和节拍,它们就成了一台会执行指令的计算机。

第二幕 · 机器1930s–1950s

门电路:开关学会判断

几个晶体管一组合,就能表达"逻辑"。

何时1930s 香农指出布尔逻辑可用开关电路实现;1950s 晶体管门电路成为造计算机的标准砖块。
原理用晶体管搭出与(AND)、或(OR)、非(NOT):输入是 0/1,输出也是 0/1,对应"且、或、取反"。
为什么任何复杂逻辑都能拆成这三种门的组合。它们是数字世界的原子
AND OR NOT 三种门 = 一切逻辑的原子
FIG.07 — 与 / 或 / 非
第二幕 · 机器1950s

加法器:逻辑开始算术

门电路一接,"计算"就冒出来了。

何时随门电路成熟,半加器/全加器成为运算单元(ALU)的核心零件。
原理一位加法:XOR 算出本位和,AND 算出进位。串起多位,就能做任意大数相加。
为什么加减乘除最终都能归约为加法 + 移位。机器的"算"能力,就是从这几个门里长出来的。
A B XOR AND 和 S 进位 C 1 + 1 = 10:和 0,进位 1
FIG.08 — 半加器:门 → 算术
第二幕 · 机器1950s

锁存器:电路第一次记住

会算还不够,机器还得会"记住刚才"。

何时与门电路同期成熟,是寄存器、内存的最小记忆单元。
原理把两个门首尾相接成反馈环,输出绕回输入,电路就会"咬住"当前这一位——输入撤走也不忘。
为什么有记忆,才谈得上"状态"。会记住 = 从计算器迈向计算机的分水岭。
NORNORQ 输出绕回输入 = 状态被"锁"住
FIG.09 — 反馈 = 记忆
第二幕 · 机器1950s–1960s

触发器与时钟

让亿万个记忆单元整齐划一地前进,靠的是一个节拍。

何时触发器在 1950s–60s 成为时序电路标准件;晶振时钟同期成为同步电路的心跳。
原理触发器 = 带"闸门"的锁存器,只在时钟跳变的那一瞬才采样输入、更新输出;晶振把时间切成等长的一格格。
为什么若各单元各改各的,信号会乱套。统一节拍让全芯片同步推进一步;周期越短越快,但发热越大——这就是"主频"。
D CLK Q D-FF
时钟↑瞬间: Q ← D
一个周期
时钟:机器的心跳
第二幕 · 机器1960s–1980s

流水线:五步接力

让一条指令分几步走,还能同时处理好几条。

何时1960s 大型机引入流水线,1980s 起成为几乎所有 CPU 的标配。
原理一条指令拆成取指→译码→执行→访存→写回,各阶段用触发器隔开、按时钟推进,像工厂流水线。
为什么前一条还在"执行",后一条已经在"取指"。五个工位同时忙,吞吐大幅提升——不必等一条走完再开始下一条。
取指译码执行访存写回 同一时刻,五条指令各处一站
FIG.10 — 指令流水线
第二幕 · 机器1945 起

冯诺依曼:程序也是数据

为什么一台电脑能装任何软件?答案在 1945 年的一份草稿里。

何时1945 年,冯·诺依曼在 EDVAC 报告里提出"存储程序"结构,沿用至今。
原理CPU + 内存 + 输入输出。关键是指令和数据放在同一片内存里,CPU 按地址取指令、执行。
为什么程序本身也是数据,就能被加载、替换、生成。机器不再为单一任务焊死——通用计算机由此诞生。
CPU 指令 数据 同一片内存 一条总线,存取指令与数据
FIG.11 — 存储程序 = 可编程
第二幕 · 收束1971 · Intel 4004

芯片:硅上长出一座城

所有这些,最终被压进指甲盖大的一块硅。

何时1971 年 Intel 4004 面世,第一枚商用微处理器,2300 个晶体管。
原理光刻工艺把门电路、寄存器、流水线全部集成到一片硅上,取指-译码-执行装进单枚芯片
为什么集成度越高,越小、越快、越便宜(摩尔定律)。开关终于长成了机器——接下来,该谈算力了。
上万晶体管,一块硅
FIG.12 — 微处理器诞生

第 三 幕

机器,变成算力

CPU 擅长一步步地"想"。可有一天人们发现:让智能长出来,需要的不是一个聪明大脑,而是同时算完千万道乘法的蛮力。

第三幕 · 算力1980s–2000s

CPU 与 GPU

两种芯片,两种哲学:一个求快,一个求多。

何时CPU 在 1980s–90s 走向多核与高主频;GPU 于 1999 年前后从图形加速卡演化而来。
原理CPU:少数强核 + 大缓存,擅长复杂串行逻辑、低延迟决策。GPU:上万个简单核,擅长海量互不依赖的乘加同时算。
为什么神经网络要的不是一条聪明路径,而是矩阵洪流。GPU 天生对口——这是后来一切的算力前提。
第 21 章 · GPU 为并行而生
CPU · 少数强核
擅长串行 · 低延迟
GPU · 上万弱核
擅长并行 · 高吞吐
第三幕 · 算力2006 · NVIDIA CUDA

CUDA:让显卡不止渲染画面

GPU 本是显卡——生来只为渲染游戏和 3D 画面。CUDA 把这身蛮力,交到了所有程序员手里。

何时2006 年 NVIDIA 发布 CUDA。在此之前,想用 GPU 算别的,得把数据伪装成图像、借渲染管线偷偷算,极其别扭。
原理CUDA 提供一套通用编程模型,让你直接把成千上万个线程铺到 GPU 核心上做并行计算,不必再假装在画图。
为什么于是 GPU 从"游戏显卡"变成"通用算力机"。深度学习一直缺的最后一块拼图——便宜、海量、可编程的并行算力——就位了。
你的代码 CUDA GPU 万核 通用计算,直达万核
FIG.13 — 算力民主化
第三幕 → 第四幕表示层

矩阵:一切都变成一张表

GPU 擅长的"洪流",到底是什么形状?

何时从第一个神经网络起,矩阵乘法就是核心运算,GPU 时代更被推到极致。
原理图像、文字、声音先被编码成数字阵列;网络每一层做的,就是矩阵 × 矩阵 再加激活。
为什么矩阵乘 = 海量、规整、互不依赖的乘加,正是 GPU 的主场。算法与算力在此合流
第 1 章 · 向量与矩阵
输入 × 权重 W = 深度学习 = 一连串矩阵乘
FIG.14 — 计算的通用形状

第 四 幕

算力,变成学习

有了海量算力,还要有一种机制:不靠人写死规则,而是让机器自己从错误里,把亿万个参数一点点调对。

第四幕 · 学习1943 / 1958

神经元:数字有了倾向

最小的"会判断"的单元,只是一道加权求和。

何时1943 年 McCulloch-Pitts 提出人工神经元;1958 年 Rosenblatt 的感知机让它能被训练。
原理把输入按权重加起来、加个偏置,再过一道激活函数决定"点亮多少"。就这么简单。
为什么权重可调,意味着这颗单元的"判断倾向"能被学习。它是从"算数"跨到"智能"的第一块积木。
第 2 章 · 一个神经元
x₁x₂x₃ ×w Σf y Σ(w·x)+b → 激活 → 输出
FIG.15 — 最小的积木
第四幕 · 学习1986 · Rumelhart 等

反向传播:让错误回流

网络怎么知道每个权重该往哪调?让误差自己走回去。

何时1986 年论文让反向传播广为人知,成为训练多层网络的标准算法。
原理先前向算出预测与答案的差距(损失),再用链式法则把这个差距逐层反传,得到每个权重的"该调多少"。
为什么这让学习变成一件自动、可规模化的事:不用人设计规则,喂数据、算误差、反传、微调,重复亿万次。
第 6 章 · 反向传播
前向:算出预测 反向:误差回传,调每个权重
FIG.16 — 网络自己学
第四幕 · 学习1998

MNIST:让训练看得见

抽象的"学习",在这个任务里第一次能亲手跑通。

何时1998 年 LeCun 整理出 MNIST 手写数字集,至今仍是入门第一课。
原理一张 28×28 的图 → 展平成向量 → 过几层网络 → 输出 10 个数字的概率 → 反传训练。
为什么它把"数据→建网→训练→评估"这条完整闭环压到最小,让人看清网络是怎么一步步学对的。
第 23 章 · MNIST 实战
7 7 像素 → 网络 → 类别
FIG.17 — 训练的闭环
第四幕 · 学习2012 · ImageNet

AlexNet:深度学习引爆

神经元、反向传播、闭环都有了——就差一次让全世界相信的胜利。

何时2012 年,AlexNet 在 ImageNet 图像识别竞赛上把错误率断崖式拉低,一举夺冠。
原理还是神经元 + 反向传播那一套,只是网络更深、跑在两块 GPU 上、喂了上百万张标注图——算法 + 算力 + 数据三合一。
为什么它证明了:只要算力和数据够,"让机器自己学特征"能碾压人工设计。这一枪,点燃了通往大模型的整条路
传统方法 AlexNet ImageNet 错误率 · 断崖下跌
FIG.18 — 深度学习引爆
第四幕 · 学习2013 · word2vec

词嵌入:词有了坐标

图能被计算,那"词"呢?先把词变成向量。

何时2013 年 word2vec 让"词向量"变得实用、流行。
原理用"上下文预测词"来训练,把每个词压成一个稠密向量。意思相近的词,向量也相近。
为什么语言得先变成数字,网络才能算。而且向量能做运算:国王 − 男人 + 女人 ≈ 女王——语义有了方向。
第 15 章 · 词嵌入与 word2vec
国王 女王 男人 女人 意思近,则坐标近;差向量 = 语义
FIG.19 — 语义坐标系
第四幕 → 第五幕1997 · LSTM / 2014

序列模型:按时间读句子

一句话有先后顺序。怎么让机器"边读边记"?

何时RNN 上世纪就有,1997 年 LSTM 缓解遗忘;2014 年前后成为机器翻译主力。
原理维护一个隐藏状态,每读一个词就更新它、再传给下一步——像滚雪球一样带着上下文往前走。
为什么但它串行、且会遗忘:读到句尾,句首的信息常常稀释殆尽。长距离依赖,成了必须翻过的墙。
第 14 章 · RNN 与 LSTM
隐藏状态一路传,但越传越淡
FIG.20 — 串行,且会遗忘

第 五 幕

学习,变成语言

2017 年一个想法改变了一切:让每个词直接看向所有词。从此规模、数据、算力叠加起来,机器开始像懂了语言。

第五幕 · 语言2017 · Attention Is All You Need

注意力:意义来自关系

与其一个字一个字顺着记,不如让每个词直接看向全句。

何时2017 年论文《Attention Is All You Need》提出自注意力,一举甩开 RNN。
原理每个词生成 Query/Key/Value,和句中所有词算相关性打分,再按分数加权汇总信息。
为什么远近不再是障碍——任意两词一步直连,还能并行计算。这解决了 RNN 的遗忘和串行两大痛点。
第 17 章 · 注意力机制
"它"回头看"猫":关系被算出来
FIG.21 — 每个词看全句
第五幕 · 语言2017

Transformer:可堆叠的积木

把注意力包成一块标准件,就能无限往上摞。

何时2017 年同一篇论文提出 Transformer,成为此后所有大模型的骨架。
原理一块 = 注意力 + 残差连接 + LayerNorm + 前馈网络。残差和归一化让深层可训练不发散
为什么结构统一、可无限堆叠、天然并行——这正是"越大越强"能成立的工程前提。
第 18 章 · Transformer 的完整结构
Attention + FFNAttention + FFNAttention + FFN 同一积木,堆 N 层
FIG.22 — 可无限堆叠
第五幕 · 语言2018–2019 · GPT / BERT

语言模型:预测下一个词

目标简单到近乎朴素,能力却从中长了出来。

何时2018–2019 年,GPT、BERT 等把 Transformer 用于大规模语言建模。
原理给定前文,预测下一个 token 的概率分布,用交叉熵训练。答案就藏在文本本身(自监督)。
为什么答案免费,就能拿整个互联网来训。在海量文本上练"猜下一个词",通用语言能力竟自己浮现。
第 19 章 · 字符级语言模型
今天天气 LM 好 · 0.7冷 · 0.2热 · 0.1 给前文,输出下一个词的概率
FIG.23 — 朴素目标,涌现能力
第五幕 · 语言2018 → 2022 · OpenAI

GPT:把这条路推到底

同样是"预测下一个词",OpenAI 只做一件事——把它拼命做大

何时2018 年 GPT-1,2019 年 GPT-2,2020 年 GPT-3(1750 亿参数);2022 年底 ChatGPT 让全世界第一次亲手用上大模型。
原理只保留 Transformer 的解码器(decoder-only)、带因果掩码,一路自回归地预测下一个 token;参数、数据、算力逐代指数级放大。
为什么它用最直接的方式证明:不换算法,只堆规模,模型就能从"续写"长出对话、推理、写代码的能力。大模型时代由此进入公众视野。
第 20 章 · 通往大模型
GPT-11.2 亿 GPT-215 亿 GPT-31750 亿 ChatGPT全民引爆 规模↑
FIG.24 — 逐代把规模推到底
第五幕 · 语言2020 · Kaplan / Chinchilla

规模定律:大力真的出奇迹

"堆大"不是蛮干,它背后有一条可预测的曲线。

何时2020 年起,一系列研究(含 Chinchilla)量化了规模与效果的关系。
原理同时放大参数、数据、算力,测试损失沿一条平滑曲线持续下降;越过门槛,新能力还会涌现
为什么正因为可预测,才敢在砸下千万美元前,用小模型把曲线画出来外推——这把"炼大模型"变成了工程决策。
第 20 章 · 规模化
不可约下界 损失 规模(对数) → 损失平滑下降
FIG.25 — 可预测的提升
第五幕 · 语言2022 起

大规模训练:模型是"炼"出来的

一个可用的大模型,要分好几个阶段"炼"。

何时2022 年 ChatGPT 之后,"预训练 + 后训练"成为大模型产品的标准流程。
原理预训练读遍海量文本学通用能力;SFT 用指令数据教它听话;RLHF 按人类偏好对齐;必要时再蒸馏成小模型。
为什么预训练决定"底子"(最烧钱),后训练决定"好不好用"。分阶段,才能既博学又听话。
第 20 章 · 预训练 + 后训练
预训练SFTRLHF蒸馏 最烧钱 底座 → 一步步调成"助手"
FIG.26 — 预训练 + 后训练
第五幕 · 语言2023 起

工程:让它真的跑得起来

模型一大,难题就从"怎么算"变成"放不放得下"。

何时2023 年大模型应用爆发后,支撑高并发、低延迟服务的一整套系统工程变成主战场。
原理单卡装不下,就把模型切到多卡(数据/张量/流水线并行),靠高速互联同步;推理用 KV cache、连续批处理提速。
为什么显存、通信、吞吐,任何一环卡住,再好的模型也服务不了亿级用户。工程决定它能否落地。
第 21 章 · 工程与基础设施
GPUGPUGPUGPUGPUGPU 切开模型 + 高速互联
FIG.27 — 撑起庞然大物
终点 · Claude Mythos2026 · Anthropic

Mythos

2026 年 4 月,Anthropic 发布 Claude Mythos——迄今最强的通用大模型。 名字跳出了 Haiku / Sonnet / Opus 的文学体裁,取希腊语的"神话"

它的底层,仍是这一路走来的那块 Transformer 积木——只是规模、训练与评估被推到极致, 能力出现质变:SWE-bench Verified 93.9%、USAMO 数学 97.6%, 七周内自主发现 2000+ 未知漏洞,还能把弱点链成可用 exploit。 强到 Anthropic 不敢公开,只通过 Project Glasswing 面向安全伙伴。

从一粒沙里的硅,到会讲述世界的语言——这段旅程,收束在它这里。