第 26 章 · 番外

机器学习全景图

前面 26 章是沿着一条主线走:从一个神经元,一路搭到 Transformer、大模型和几个真实 C++ demo。 这一章换个视角,把地图摊开:机器学习到底有哪些分支?它和 AI、深度学习、生成式 AI 是什么关系? 从 1950 年代到 2026 年,这条路大概经历了哪些转折?以后再冒出新模型、新产品、新缩写,又该怎么放回这张地图?

读前须知:这是视野篇,不是新主线

这一章不继续推公式,也不要求你写新代码。它的作用是帮你建立行业地图: 知道自己学过的东西在大图里放在哪,也知道新闻里那些新名词大概属于哪一支。 读完之后,你不需要记住每个缩写,但应该能看出它属于哪类任务、哪类模型、解决什么瓶颈。

读完这一章,你会明白

  • AI、机器学习、深度学习、生成式 AI、大模型之间到底是什么包含关系;
  • 机器学习按“学习信号”可以分成监督、无监督/自监督、强化学习,按“任务”又有分类、回归、推荐、生成、控制等分支;
  • 从符号 AI、感知机、反向传播、AlexNet、AlphaGo、Transformer 到 ChatGPT 的关键时间线;
  • 看到一个 AI 产品或新名词时,能用一套检查清单判断它到底靠不靠谱、该放在地图哪里;
  • 以后看到一个新模型/新论文/新产品,该用哪几个问题快速定位它。

1. 先把几个圈分清

很多人第一次接触会把 AI机器学习深度学习大模型混在一起。 其实最稳的记法是四个同心圈:

AI 人工智能 让机器表现出智能:搜索、规划、推理、感知、语言、控制... 机器学习 ML 不把规则全写死,而是从数据里学规律 深度学习 DL 用很多层神经网络学表示 生成式 AI 文本/图像/音频/代码 大模型常在这里 规则系统、搜索、专家系统等:属于 AI,但不一定靠机器学习 决策树、SVM、随机森林等:属于 ML,但不一定是深度学习

AI 是最大目标;机器学习是实现 AI 的主流路线;深度学习是机器学习里用深层神经网络的路线;生成式 AI 和大模型主要是深度学习发展到大规模后的结果。

一句话版本

AI 是目标,机器学习是方法,深度学习是一类模型,大模型是深度学习规模化之后的一种形态。 这四个词不是并列关系,而是层层包含、互相交叉。

光有“同心圈”还不够——机器学习内部到底怎么分门别类、这些类型又共享什么?下面这张思维导图先给你一张总览, 后面 §2 / §3 / §4 再分别展开三种分法。看图时抓住一个要点:无论哪一支,骨架都是同一句话——“从数据里学一个函数,靠最小化某个目标”

机器学习 从数据里学规律 按学习信号 靠什么信号学 · §2 监督 · 带标准答案 无监督 · 自己找结构 自监督 · 自造题和答案 强化 · 靠奖励试错 按任务 要它做什么 · §3 分类 / 回归 排序 / 推荐 / 序列预测 生成 / 决策控制 / 异常检测 按模型家族 用什么“脑子” · §4 线性 / 树模型 / 核方法(SVM) 神经网络 → 深度学习 → 大模型 概率图 / 因果模型

机器学习全景思维导图:同一个“机器学习”,能按学习信号(§2)、按任务(§3)、按模型家族(§4)三种角度切分——三种分法看的是同一头大象的不同侧面。

三种分法不同,但内核是同一套(这才是它们的“共同点”)

不管落到哪一支,一个机器学习系统的骨架都是同样四步:

① 有一个可调的模型(一堆参数)→ ② 定义一个“目标 / 损失”衡量它做得好不好 → ③ 用数据不断把损失降下去(训练)→ ④ 在没见过的数据上评估它是否真的学会。

监督学习的“目标”是“预测 vs 标准答案”,无监督是“数据自身的合理性”,强化学习是“累计奖励”——目标的来源不同,但“定义目标、再想办法优化它”这个内核完全一致。这也是为什么学透了前面的损失梯度下降,换个分支也能很快看懂。

2. 按“学习信号”分:它靠什么学?

最常用的分法,不是看模型长什么样,而是看训练时靠什么信号来学。 这和第 0 章那张表一致,这里只把地图补完整一点:

分支训练信号典型问题本书对应
监督学习样本带标准答案图片分类、房价预测、垃圾邮件识别第 2–11 章、MNIST
无监督学习没有人工标签,自己找结构聚类、降维、异常检测、表示学习第 27 章
自监督学习从数据里自动造题和答案预测下一个词、遮住一块图让模型补第 19 章第 20 章
强化学习奖励/惩罚,靠试错改策略下棋、机器人控制、推荐策略、RLHF第 12 章第 25 章
半监督/主动学习少量标签 + 大量无标签,或主动挑样本请人标标注很贵的医疗、工业质检、语音数据本书只建立概念

注意:这些不是互斥阵营。一个真实系统常常会混用:先自监督预训练,再监督微调,最后用强化学习/偏好数据做对齐。

3. 按“任务”分:它要帮你做什么?

另一种更贴近业务的分法,是看输出到底是什么。你以后看到一个 AI 项目,先问“它在输出什么”,通常就能定位七八成:

任务族输出常见场景常见模型
分类离散类别猫/狗/人脸、垃圾邮件、故障类型逻辑回归、树模型、CNN、Transformer
回归连续数值价格、销量、温度、风险分数线性模型、GBDT、MLP
排序/推荐/搜索一组候选的顺序搜索结果、短视频推荐、广告排序GBDT、双塔、召回+排序、强化学习
序列预测下一个时间点/下一个 token语言模型、时间序列、语音识别RNN、Transformer、状态空间模型
生成新内容写文章、画图、生成代码、做视频语言模型、扩散模型、多模态模型
决策与控制动作/策略游戏、机器人、调度、自动驾驶局部规划强化学习、规划、模仿学习
异常检测是否“不像正常样本”风控、机器故障、入侵检测统计模型、自编码器、孤立森林
为什么大模型看起来“什么都能做”?

因为很多任务都可以被改写成“给一段上下文,预测接下来该输出什么”: 分类可以输出类别名,翻译可以输出目标语言句子,写代码可以输出代码,工具调用可以输出结构化参数。 这不是说传统分支消失了,而是语言模型把很多任务统一进了一个序列生成接口

4. 按“模型家族”分:它用什么脑子?

学习信号和任务说的是“怎么学、做什么”;模型家族说的是“用什么结构承载规律”。历史上几条路线长期并存:

家族直觉强项短板
规则/符号系统专家把规则写进去可解释、可控、适合明确流程规则难覆盖真实世界长尾
线性/广义线性模型特征加权求和快、稳、好解释表达力有限,依赖人工特征
树模型/集成一堆 if-else 自动组合表格数据非常强,工程成熟不擅长原始图像/语音/长文本
核方法/SVM把数据映到更高维再切开小中型数据、理论漂亮大规模数据和端到端表示学习不方便
神经网络多层可学习变换图像、语音、文本、多模态都能端到端学吃数据和算力,解释难,调参多
概率/因果模型显式建模不确定性和因果关系科学、医疗、决策分析里很重要建模假设难,和深度学习融合仍在发展
大模型(深度学习的规模化形态)神经网络放到超大规模,先预训练再迁移通用、可交互、可当平台;一套底座多任务成本高、可靠性和治理挑战大

不要把“新”误解成“旧的没用了”。到 2026 年,金融风控、广告排序、工业质检里仍大量使用树模型、线性模型和规则系统;大模型不是独立的第七家,它本身就是神经网络/深度学习放大后的形态,更像在这些经典家族之上新增了一层强大的通用接口。

4.1 为什么最后是深度学习脱颖而出?

既然这么多家族各有强项,为什么最近十几年的舞台中央是深度学习?先把它们放在几个关键维度上摆一摆:

维度线性 / 树 / SVM 等经典模型深度学习
要不要人工设计特征大多:得靠专家把原始数据加工成好用的特征不用:从原始像素/文字里自动学出层次化特征
数据越多越强吗到一定量就饱和,再喂也涨不动基本越多越强,能吃下海量数据持续变好
原始感知数据(图/音/文)弱,需要大量预处理强项,端到端直接处理
表格 / 中小数据,又快又准还好解释常常不划算,容易过拟合
算力需求低,一台笔记本就能跑高,吃 GPU / 大规模并行
可解释性(尤其决策树、线性)差,更像黑盒

看这张表就明白:深度学习赢的不是“样样都最好”——在表格数据、小样本、要解释的场景里,它至今都不占优(第 28 章的树模型就常常更好用)。 它真正的杀手锏只有一个,但极其关键:

深度学习脱颖而出的三个原因(缺一不可)

① 自动学特征。经典模型最费人的一步是“人工设计特征”;深度学习把这步也交给网络自己学(第 13 章的 CNN 逐层从边缘到物体), 在图像、语音、文本这些原始感知数据上一举甩开对手。
② 越大越强、能吃数据。经典模型喂到一定量就饱和,深度网络却能随数据和参数一起放大持续变好——这正是第 20 章“规模定律”和大模型的根基。
③ 恰好赶上了算力和数据。2012 年前后,GPU 算力 + 互联网级数据同时到位,深度学习“吃数据吃算力”的胃口第一次被喂饱,于是AlexNet 一炮而红

所以更准确的说法是:深度学习不是取代了其它家族,而是打开了一片它们做不到的新疆域——凡是“数据海量、又是原始感知信号”的任务,它几乎通吃; 而在表格、小样本、强解释的老阵地上,经典模型依旧稳稳地在用。这也呼应了本节开头那句:不要把“新”误解成“旧的没用了”。

5. 一条时间线:机器学习怎么走到今天

这条时间线不求列全所有论文,只抓对今天影响最大的转折。你会发现,机器学习的发展并不是一路直线上升, 而是反复经历“想法超前 → 算力/数据不够 → 沉寂 → 条件成熟后爆发”。

关键节点 低潮 / “寒冬” 爆发式突破
1950 Turing 提出“机器能否思考”的检验 把智能机器从哲学问题拉进可操作的讨论。
1956 Dartmouth 夏季研究项目 “人工智能”正式成形,早期集中在符号推理、搜索和语言。
1957–58 Rosenblatt 感知机 早期神经网络路线出现,证明机器能从样本中调权重。
1969 《Perceptrons》指出单层感知机局限 神经网络热度骤降,进入漫长“寒冬”的重要导火索。
1986 反向传播被系统推广 多层网络终于有了可用的训练方法——正是本书第 6 章的核心。
1997 Deep Blue 击败国际象棋世界冠军 展示搜索 + 评估函数 + 专用工程在封闭规则游戏里的威力。
~2006 “深度学习”复兴 更大的数据、更好的训练技巧、更强的 GPU,让深层网络重新可行。
2012 AlexNet 赢得 ImageNet CNN + GPU + 大数据让视觉任务大幅跃迁,深度学习就此成为主流。
2014 GAN、seq2seq 等兴起 生成模型和端到端序列建模开始快速发展。
2016 AlphaGo 深度网络 + 搜索 + 强化学习自我对弈,在复杂决策上突破人类顶尖水平。
2017 Transformer 用注意力取代 RNN 的串行瓶颈,成为大模型时代的底座结构。
2018 BERT “预训练 + 微调”成为 NLP 标配,自监督预训练走到舞台中央。
2020 GPT-3 规模化语言模型展示 few-shot / 上下文学习,提示词成为交互接口。
2022 ChatGPT 发布 大模型从研究圈进入大众视野,对话式 AI 成为新的产品入口。
2023–24 多模态、RAG、Agent、AI 治理加速 模型开始看图、听音频、调用工具;NIST AI RMF、EU AI Act 等治理框架落地。
2025–26 能力扩散到代码、科学、长上下文与工作流 能力继续提升,但评估、成本、环境影响、可靠性成为更硬的瓶颈。

6. 别只看 demo:判断一个 AI 项目是否靠谱

以后看到一个模型、产品、论文或创业项目, 先别急着被演示效果带走,按下面五个问题过一遍:

先问什么具体看什么最常见的坑本书对应
准不准? 有没有真实测试集、边界样本、失败案例;指标是否和业务目标一致 只展示漂亮 demo,benchmark 高但真实数据上一塌糊涂 评估与数据
稳不稳? 多跑几次是否一致;长上下文、工具调用、多轮交互会不会掉链子 演示时成功一次,上线后幻觉、漏读、乱调用工具 幻觉与使用
贵不贵? 训练/推理成本、延迟、吞吐、显存、并发;能否量化、缓存、批处理 能跑,但跑不起;用户一多,成本和延迟直接爆掉 大模型工程
安不安全? 数据权限、隐私、审计、输出边界、越权操作、版权与合规责任 把内部数据随手喂给外部模型,或让 Agent 拿到过大的权限 RAG / Agent
接得进流程吗? 人机分工、回退方案、监控、人工复核、和现有系统的数据接口 做了一个聊天框,但没人知道该在流程里什么时候用、错了谁兜底 强化学习策略

真正落地时,“能生成一段漂亮回答”只是第一关。评估、成本、可靠性、权限和流程接入,往往才决定它有没有用。

一句硬话

AI 项目最容易骗人的地方,不是模型完全没能力,而是能力只在少数样例里成立。 所以你要学会追问:失败率是多少?失败时能不能发现?发现后谁处理?处理成本是否还能接受?

7. 以后看到新名词,用这四个问题定位

AI 名词更新太快,硬背会很累。更好的办法是用四个问题给它“归档”:

  1. 它学什么信号? 是监督、无监督、自监督、强化学习,还是混合?
  2. 它输出什么? 类别、数值、排序、文本、图像、动作,还是工具调用?
  3. 它靠什么结构? 树模型、CNN、RNN、Transformer、扩散模型、检索系统,还是多模型组合?
  4. 它解决什么瓶颈? 能力、成本、速度、长上下文、可靠性、数据隐私、部署还是交互体验?
真正的学习路线

不要追着每个新缩写跑。先抓住任务、数据、模型、损失、优化、评估、部署这七个骨架。 新名词再花哨,通常也只是这七件事的某个组合或改良。

新名词它学什么 / 用什么它输出什么它主要解决什么瓶颈
RAG 检索系统 + 语言模型,通常不需要重新训练大模型 带外部资料依据的回答 模型记不住最新/私有知识,也容易凭空编
Agent 语言模型 + 工具调用 + 多步循环 一串动作:查资料、写文件、调用接口、再总结 把“回答问题”扩展成“执行任务”
MoE Transformer 里把部分 FFN 换成多个专家,Router 只激活少数几个 仍是 token 概率或中间表示 参数变多但每次只算一部分,在能力和成本之间折中
LoRA 冻结大模型原权重,只训练低秩小矩阵 同一个模型接口,但更贴近某个任务/风格 全量微调太贵、显存太吃紧、部署版本太多
扩散模型 学习从噪声一步步还原数据的去噪过程 图片、视频、音频等连续信号 生成高质量视觉内容,比逐 token 生成更适合图像
GBDT 一棵接一棵的树,每棵补前面模型的错 分类概率、回归数值、排序分数 表格数据上追求高精度,且训练/推理成本可控

这样归档之后,新名词就不再神秘:先看它属于哪类数据、哪类模型、哪类输出,再看它到底解决哪个旧瓶颈。

资料来源与延伸阅读

这一章的时间线和延伸阅读参考了几类资料,不要求逐篇读完;以后想核对关键节点,这些比二手文章稳:

小结

  • AI ⊃ 机器学习 ⊃ 深度学习;生成式 AI 和大模型主要是深度学习规模化后的重要分支。
  • 按学习信号看,有监督、无监督/自监督、强化学习;真实系统常常混合使用。
  • 按任务看,有分类、回归、排序/推荐、序列预测、生成、决策控制、异常检测等。
  • 模型家族长期并存:规则、线性模型、树模型、核方法、神经网络(及其规模化形态大模型)、概率/因果模型各有位置;深度学习靠“自动学特征 + 越大越强 + 赶上算力数据”在感知类任务上脱颖而出,但没有取代经典模型。
  • 关键时间线:1956 AI 命名,1957/58 感知机,1986 反向传播,2012 AlexNet,2016 AlphaGo,2017 Transformer,2022 ChatGPT,2025–2026 走向多模态、Agent、科学和真实工作流。
  • 看 AI 产品不能只看 demo:要追问准不准、稳不稳、贵不贵、安不安全、能不能接进真实流程。
  • 看到新名词,先问学习信号、输出任务、模型结构和解决的瓶颈,再把它放回地图里。

动手与思考

问题 1:AI、机器学习、深度学习、大模型是什么关系?

AI 是最大目标;机器学习是从数据里学规律的路线;深度学习是机器学习里用多层神经网络的路线;大模型是深度学习在海量数据、算力和自监督训练下形成的规模化模型。

问题 2:为什么说自监督是大模型时代的关键?

因为它能从无标注数据里自动造训练目标,比如“预测下一个 token”。这样模型就能利用海量文本、图像和代码,不必等人类逐条标注答案。

问题 3:传统机器学习在大模型时代还有用吗?

有。表格数据、风控、广告排序、工业规则、低成本部署等场景里,线性模型、树模型、规则系统仍然很强。大模型提供了新的通用接口,但不会把所有旧工具一夜清空。

问题 4:看到一个新 AI 名词,最该先问什么?

先问四件事:它靠什么学习信号?输出什么?用什么模型结构?解决什么瓶颈?这四个问题能把大多数新概念放回地图里。

地图展开了 · 接着挑两支深入看

有了这张全景图,后面两章番外各挑一支主线之外的分支深入:先看那支“没有标签也能学”的无监督与自监督, 再看在表格数据上至今仍是主力的决策树与随机森林

继续 · 无监督与自监督学习