第 26 章 · 番外

机器学习全景图

前面 26 章是沿着一条主线走:从一个神经元,一路搭到 Transformer、大模型和几个真实 C++ demo。这一章换个视角,把地图摊开:机器学习到底有哪些分支?它和 AI、深度学习、生成式 AI 是什么关系? 从 1950 年代到 2026 年,这条路大概经历了哪些转折?以后再冒出新模型、新产品、新缩写,又该怎么放回这张地图?

读前须知:这是视野篇,不是新主线

这一章不继续推公式,也不要求你写新代码。它的作用是帮你建立行业地图: 知道自己学过的东西在大图里放在哪,也知道新闻里那些新名词大概属于哪一支。读完之后,你不需要记住每个缩写,但应该能看出它属于哪类任务、哪类模型、解决什么瓶颈。

读完这一章,你会明白

AI、机器学习、深度学习、生成式 AI、大模型之间到底是什么包含关系;
机器学习按“学习信号”可以分成监督、无监督/自监督、强化学习,按“任务”又有分类、回归、推荐、生成、控制等分支;
从符号 AI、感知机、反向传播、AlexNet、AlphaGo、Transformer 到 ChatGPT 的关键时间线;
看到一个 AI 产品或新名词时,能用一套检查清单判断它到底靠不靠谱、该放在地图哪里;
以后看到一个新模型/新论文/新产品,该用哪几个问题快速定位它。

1. 先把几个圈分清

很多人第一次接触会把 AI、机器学习、深度学习、大模型混在一起。其实最稳的记法是四个同心圈:

AI 是最大目标;机器学习是实现 AI 的主流路线;深度学习是机器学习里用深层神经网络的路线;生成式 AI 和大模型主要是深度学习发展到大规模后的结果。

一句话版本

AI 是目标,机器学习是方法,深度学习是一类模型,大模型是深度学习规模化之后的一种形态。 这四个词不是并列关系,而是层层包含、互相交叉。

光有“同心圈”还不够——机器学习内部到底怎么分门别类、这些类型又共享什么?下面这张思维导图先给你一张总览, 后面 §2 / §3 / §4 再分别展开三种分法。看图时抓住一个要点:无论哪一支,骨架都是同一句话——“从数据里学一个函数,靠最小化某个目标”。

机器学习全景思维导图:同一个“机器学习”,能按学习信号(§2)、按任务(§3)、按模型家族(§4)三种角度切分——三种分法看的是同一头大象的不同侧面。

三种分法不同,但内核是同一套(这才是它们的“共同点”)

不管落到哪一支,一个机器学习系统的骨架都是同样四步:

① 有一个可调的模型(一堆参数)→ ② 定义一个“目标 / 损失”衡量它做得好不好 → ③ 用数据不断把损失降下去(训练)→ ④ 在没见过的数据上评估它是否真的学会。

监督学习的“目标”是“预测 vs 标准答案”,无监督是“数据自身的合理性”,强化学习是“累计奖励”——目标的来源不同,但“定义目标、再想办法优化它”这个内核完全一致。这也是为什么学透了前面的损失和梯度下降,换个分支也能很快看懂。

2. 按“学习信号”分:它靠什么学?

最常用的分法,不是看模型长什么样,而是看训练时靠什么信号来学。这和第 0 章那张表一致,这里只把地图补完整一点:

分支	训练信号	典型问题	本书对应
监督学习	样本带标准答案	图片分类、房价预测、垃圾邮件识别	第 2–11 章、MNIST
无监督学习	没有人工标签,自己找结构	聚类、降维、异常检测、表示学习	第 27 章
自监督学习	从数据里自动造题和答案	预测下一个词、遮住一块图让模型补	第 19 章、第 20 章
强化学习	奖励/惩罚,靠试错改策略	下棋、机器人控制、推荐策略、RLHF	第 12 章、第 25 章
半监督/主动学习	少量标签 + 大量无标签,或主动挑样本请人标	标注很贵的医疗、工业质检、语音数据	本书只建立概念

注意:这些不是互斥阵营。一个真实系统常常会混用:先自监督预训练,再监督微调,最后用强化学习/偏好数据做对齐。

3. 按“任务”分:它要帮你做什么?

另一种更贴近业务的分法,是看输出到底是什么。你以后看到一个 AI 项目,先问“它在输出什么”,通常就能定位七八成:

任务族	输出	常见场景	常见模型
分类	离散类别	猫/狗/人脸、垃圾邮件、故障类型	逻辑回归、树模型、CNN、Transformer
回归	连续数值	价格、销量、温度、风险分数	线性模型、GBDT、MLP
排序/推荐/搜索	一组候选的顺序	搜索结果、短视频推荐、广告排序	GBDT、双塔、召回+排序、强化学习
序列预测	下一个时间点/下一个 token	语言模型、时间序列、语音识别	RNN、Transformer、状态空间模型
生成	新内容	写文章、画图、生成代码、做视频	语言模型、扩散模型、多模态模型
决策与控制	动作/策略	游戏、机器人、调度、自动驾驶局部规划	强化学习、规划、模仿学习
异常检测	是否“不像正常样本”	风控、机器故障、入侵检测	统计模型、自编码器、孤立森林

为什么大模型看起来“什么都能做”?

因为很多任务都可以被改写成“给一段上下文,预测接下来该输出什么”: 分类可以输出类别名,翻译可以输出目标语言句子,写代码可以输出代码,工具调用可以输出结构化参数。这不是说传统分支消失了,而是语言模型把很多任务统一进了一个序列生成接口。

4. 按“模型家族”分:它用什么脑子?

学习信号和任务说的是“怎么学、做什么”;模型家族说的是“用什么结构承载规律”。历史上几条路线长期并存:

家族	直觉	强项	短板
规则/符号系统	专家把规则写进去	可解释、可控、适合明确流程	规则难覆盖真实世界长尾
线性/广义线性模型	特征加权求和	快、稳、好解释	表达力有限,依赖人工特征
树模型/集成	一堆 if-else 自动组合	表格数据非常强,工程成熟	不擅长原始图像/语音/长文本
核方法/SVM	把数据映到更高维再切开	小中型数据、理论漂亮	大规模数据和端到端表示学习不方便
神经网络	多层可学习变换	图像、语音、文本、多模态都能端到端学	吃数据和算力,解释难,调参多
概率/因果模型	显式建模不确定性和因果关系	科学、医疗、决策分析里很重要	建模假设难,和深度学习融合仍在发展
大模型(深度学习的规模化形态)	神经网络放到超大规模,先预训练再迁移	通用、可交互、可当平台;一套底座多任务	成本高、可靠性和治理挑战大

不要把“新”误解成“旧的没用了”。到 2026 年,金融风控、广告排序、工业质检里仍大量使用树模型、线性模型和规则系统;大模型不是独立的第七家,它本身就是神经网络/深度学习放大后的形态,更像在这些经典家族之上新增了一层强大的通用接口。

4.1 为什么最后是深度学习脱颖而出?

既然这么多家族各有强项,为什么最近十几年的舞台中央是深度学习?先把它们放在几个关键维度上摆一摆:

维度	线性 / 树 / SVM 等经典模型	深度学习
要不要人工设计特征	大多要:得靠专家把原始数据加工成好用的特征	不用:从原始像素/文字里自动学出层次化特征
数据越多越强吗	到一定量就饱和,再喂也涨不动	基本越多越强,能吃下海量数据持续变好
原始感知数据(图/音/文)	弱,需要大量预处理	强项,端到端直接处理
表格 / 中小数据	强,又快又准还好解释	常常不划算,容易过拟合
算力需求	低,一台笔记本就能跑	高,吃 GPU / 大规模并行
可解释性	好(尤其决策树、线性)	差,更像黑盒

看这张表就明白:深度学习赢的不是“样样都最好”——在表格数据、小样本、要解释的场景里,它至今都不占优(第 28 章的树模型就常常更好用)。它真正的杀手锏只有一个,但极其关键:

深度学习脱颖而出的三个原因(缺一不可)

① 自动学特征。经典模型最费人的一步是“人工设计特征”;深度学习把这步也交给网络自己学(第 13 章的 CNN 逐层从边缘到物体), 在图像、语音、文本这些原始感知数据上一举甩开对手。
② 越大越强、能吃数据。经典模型喂到一定量就饱和,深度网络却能随数据和参数一起放大持续变好——这正是第 20 章“规模定律”和大模型的根基。
③ 恰好赶上了算力和数据。2012 年前后,GPU 算力 + 互联网级数据同时到位,深度学习“吃数据吃算力”的胃口第一次被喂饱,于是AlexNet 一炮而红。

所以更准确的说法是:深度学习不是取代了其它家族,而是打开了一片它们做不到的新疆域——凡是“数据海量、又是原始感知信号”的任务,它几乎通吃; 而在表格、小样本、强解释的老阵地上,经典模型依旧稳稳地在用。这也呼应了本节开头那句:不要把“新”误解成“旧的没用了”。

5. 一条时间线:机器学习怎么走到今天

这条时间线不求列全所有论文,只抓对今天影响最大的转折。你会发现,机器学习的发展并不是一路直线上升, 而是反复经历“想法超前 → 算力/数据不够 → 沉寂 → 条件成熟后爆发”。

关键节点低潮 / “寒冬” 爆发式突破

1950 Turing 提出“机器能否思考”的检验把智能机器从哲学问题拉进可操作的讨论。

1956 Dartmouth 夏季研究项目 “人工智能”正式成形,早期集中在符号推理、搜索和语言。

1957–58 Rosenblatt 感知机早期神经网络路线出现,证明机器能从样本中调权重。

1969 《Perceptrons》指出单层感知机局限神经网络热度骤降,进入漫长“寒冬”的重要导火索。

1986 反向传播被系统推广多层网络终于有了可用的训练方法——正是本书第 6 章的核心。

1997 Deep Blue 击败国际象棋世界冠军展示搜索 + 评估函数 + 专用工程在封闭规则游戏里的威力。

~2006 “深度学习”复兴更大的数据、更好的训练技巧、更强的 GPU,让深层网络重新可行。

2012 AlexNet 赢得 ImageNet CNN + GPU + 大数据让视觉任务大幅跃迁,深度学习就此成为主流。

2014 GAN、seq2seq 等兴起生成模型和端到端序列建模开始快速发展。

2016 AlphaGo 深度网络 + 搜索 + 强化学习自我对弈,在复杂决策上突破人类顶尖水平。

2017 Transformer 用注意力取代 RNN 的串行瓶颈,成为大模型时代的底座结构。

2018 BERT “预训练 + 微调”成为 NLP 标配,自监督预训练走到舞台中央。

2020 GPT-3 规模化语言模型展示 few-shot / 上下文学习,提示词成为交互接口。

2022 ChatGPT 发布大模型从研究圈进入大众视野,对话式 AI 成为新的产品入口。

2023–24 多模态、RAG、Agent、AI 治理加速模型开始看图、听音频、调用工具;NIST AI RMF、EU AI Act 等治理框架落地。

2025–26 能力扩散到代码、科学、长上下文与工作流能力继续提升,但评估、成本、环境影响、可靠性成为更硬的瓶颈。

6. 别只看 demo:判断一个 AI 项目是否靠谱

以后看到一个模型、产品、论文或创业项目, 先别急着被演示效果带走,按下面五个问题过一遍:

先问什么	具体看什么	最常见的坑	本书对应
准不准?	有没有真实测试集、边界样本、失败案例;指标是否和业务目标一致	只展示漂亮 demo,benchmark 高但真实数据上一塌糊涂	评估与数据
稳不稳?	多跑几次是否一致;长上下文、工具调用、多轮交互会不会掉链子	演示时成功一次,上线后幻觉、漏读、乱调用工具	幻觉与使用
贵不贵?	训练/推理成本、延迟、吞吐、显存、并发;能否量化、缓存、批处理	能跑,但跑不起;用户一多,成本和延迟直接爆掉	大模型工程
安不安全?	数据权限、隐私、审计、输出边界、越权操作、版权与合规责任	把内部数据随手喂给外部模型,或让 Agent 拿到过大的权限	RAG / Agent
接得进流程吗?	人机分工、回退方案、监控、人工复核、和现有系统的数据接口	做了一个聊天框,但没人知道该在流程里什么时候用、错了谁兜底	强化学习策略

真正落地时,“能生成一段漂亮回答”只是第一关。评估、成本、可靠性、权限和流程接入,往往才决定它有没有用。

一句硬话

AI 项目最容易骗人的地方,不是模型完全没能力,而是能力只在少数样例里成立。所以你要学会追问:失败率是多少?失败时能不能发现?发现后谁处理?处理成本是否还能接受?

7. 以后看到新名词,用这四个问题定位

AI 名词更新太快,硬背会很累。更好的办法是用四个问题给它“归档”:

它学什么信号? 是监督、无监督、自监督、强化学习,还是混合?
它输出什么? 类别、数值、排序、文本、图像、动作,还是工具调用?
它靠什么结构? 树模型、CNN、RNN、Transformer、扩散模型、检索系统,还是多模型组合?
它解决什么瓶颈? 能力、成本、速度、长上下文、可靠性、数据隐私、部署还是交互体验?

真正的学习路线

不要追着每个新缩写跑。先抓住任务、数据、模型、损失、优化、评估、部署这七个骨架。新名词再花哨,通常也只是这七件事的某个组合或改良。

新名词	它学什么 / 用什么	它输出什么	它主要解决什么瓶颈
RAG	检索系统 + 语言模型,通常不需要重新训练大模型	带外部资料依据的回答	模型记不住最新/私有知识,也容易凭空编
Agent	语言模型 + 工具调用 + 多步循环	一串动作:查资料、写文件、调用接口、再总结	把“回答问题”扩展成“执行任务”
MoE	Transformer 里把部分 FFN 换成多个专家,Router 只激活少数几个	仍是 token 概率或中间表示	参数变多但每次只算一部分,在能力和成本之间折中
LoRA	冻结大模型原权重,只训练低秩小矩阵	同一个模型接口,但更贴近某个任务/风格	全量微调太贵、显存太吃紧、部署版本太多
扩散模型	学习从噪声一步步还原数据的去噪过程	图片、视频、音频等连续信号	生成高质量视觉内容,比逐 token 生成更适合图像
GBDT	一棵接一棵的树,每棵补前面模型的错	分类概率、回归数值、排序分数	表格数据上追求高精度,且训练/推理成本可控

这样归档之后,新名词就不再神秘:先看它属于哪类数据、哪类模型、哪类输出,再看它到底解决哪个旧瓶颈。

资料来源与延伸阅读

这一章的时间线和延伸阅读参考了几类资料,不要求逐篇读完;以后想核对关键节点,这些比二手文章稳:

Stanford HAI · 2026 AI Index Report:年度 AI 能力、产业、治理、社会影响综述。
Dartmouth · AI 一词的诞生:1956 年 Dartmouth 项目的背景。
Rumelhart, Hinton, Williams · Back-propagation:反向传播经典论文。
AlexNet · ImageNet 2012:深度学习视觉浪潮的关键节点。
Attention Is All You Need:Transformer 原始论文。
OpenAI · Introducing ChatGPT:2022 年 ChatGPT 发布说明。

小结

AI ⊃ 机器学习 ⊃ 深度学习;生成式 AI 和大模型主要是深度学习规模化后的重要分支。
按学习信号看,有监督、无监督/自监督、强化学习;真实系统常常混合使用。
按任务看,有分类、回归、排序/推荐、序列预测、生成、决策控制、异常检测等。
模型家族长期并存:规则、线性模型、树模型、核方法、神经网络(及其规模化形态大模型)、概率/因果模型各有位置;深度学习靠“自动学特征 + 越大越强 + 赶上算力数据”在感知类任务上脱颖而出,但没有取代经典模型。
关键时间线:1956 AI 命名,1957/58 感知机,1986 反向传播,2012 AlexNet,2016 AlphaGo,2017 Transformer,2022 ChatGPT,2025–2026 走向多模态、Agent、科学和真实工作流。
看 AI 产品不能只看 demo:要追问准不准、稳不稳、贵不贵、安不安全、能不能接进真实流程。
看到新名词,先问学习信号、输出任务、模型结构和解决的瓶颈,再把它放回地图里。

动手与思考

问题 1:AI、机器学习、深度学习、大模型是什么关系?

AI 是最大目标;机器学习是从数据里学规律的路线;深度学习是机器学习里用多层神经网络的路线;大模型是深度学习在海量数据、算力和自监督训练下形成的规模化模型。

问题 2:为什么说自监督是大模型时代的关键?

因为它能从无标注数据里自动造训练目标,比如“预测下一个 token”。这样模型就能利用海量文本、图像和代码,不必等人类逐条标注答案。

问题 3:传统机器学习在大模型时代还有用吗?

有。表格数据、风控、广告排序、工业规则、低成本部署等场景里,线性模型、树模型、规则系统仍然很强。大模型提供了新的通用接口,但不会把所有旧工具一夜清空。

问题 4:看到一个新 AI 名词,最该先问什么?

先问四件事:它靠什么学习信号?输出什么?用什么模型结构?解决什么瓶颈?这四个问题能把大多数新概念放回地图里。

地图展开了 · 接着挑两支深入看

有了这张全景图,后面两章番外各挑一支主线之外的分支深入:先看那支“没有标签也能学”的无监督与自监督, 再看在表格数据上至今仍是主力的决策树与随机森林。

继续 · 无监督与自监督学习