第 26 章 · 番外
机器学习全景图
前面 26 章是沿着一条主线走:从一个神经元,一路搭到 Transformer、大模型和几个真实 C++ demo。 这一章换个视角,把地图摊开:机器学习到底有哪些分支?它和 AI、深度学习、生成式 AI 是什么关系? 从 1950 年代到 2026 年,这条路大概经历了哪些转折?以后再冒出新模型、新产品、新缩写,又该怎么放回这张地图?
这一章不继续推公式,也不要求你写新代码。它的作用是帮你建立行业地图: 知道自己学过的东西在大图里放在哪,也知道新闻里那些新名词大概属于哪一支。 读完之后,你不需要记住每个缩写,但应该能看出它属于哪类任务、哪类模型、解决什么瓶颈。
读完这一章,你会明白
- AI、机器学习、深度学习、生成式 AI、大模型之间到底是什么包含关系;
- 机器学习按“学习信号”可以分成监督、无监督/自监督、强化学习,按“任务”又有分类、回归、推荐、生成、控制等分支;
- 从符号 AI、感知机、反向传播、AlexNet、AlphaGo、Transformer 到 ChatGPT 的关键时间线;
- 看到一个 AI 产品或新名词时,能用一套检查清单判断它到底靠不靠谱、该放在地图哪里;
- 以后看到一个新模型/新论文/新产品,该用哪几个问题快速定位它。
1. 先把几个圈分清
很多人第一次接触会把 AI、机器学习、深度学习、大模型混在一起。 其实最稳的记法是四个同心圈:
AI 是最大目标;机器学习是实现 AI 的主流路线;深度学习是机器学习里用深层神经网络的路线;生成式 AI 和大模型主要是深度学习发展到大规模后的结果。
AI 是目标,机器学习是方法,深度学习是一类模型,大模型是深度学习规模化之后的一种形态。 这四个词不是并列关系,而是层层包含、互相交叉。
光有“同心圈”还不够——机器学习内部到底怎么分门别类、这些类型又共享什么?下面这张思维导图先给你一张总览, 后面 §2 / §3 / §4 再分别展开三种分法。看图时抓住一个要点:无论哪一支,骨架都是同一句话——“从数据里学一个函数,靠最小化某个目标”。
机器学习全景思维导图:同一个“机器学习”,能按学习信号(§2)、按任务(§3)、按模型家族(§4)三种角度切分——三种分法看的是同一头大象的不同侧面。
不管落到哪一支,一个机器学习系统的骨架都是同样四步:
① 有一个可调的模型(一堆参数)→ ② 定义一个“目标 / 损失”衡量它做得好不好 → ③ 用数据不断把损失降下去(训练)→ ④ 在没见过的数据上评估它是否真的学会。
监督学习的“目标”是“预测 vs 标准答案”,无监督是“数据自身的合理性”,强化学习是“累计奖励”——目标的来源不同,但“定义目标、再想办法优化它”这个内核完全一致。这也是为什么学透了前面的损失和梯度下降,换个分支也能很快看懂。
2. 按“学习信号”分:它靠什么学?
最常用的分法,不是看模型长什么样,而是看训练时靠什么信号来学。 这和第 0 章那张表一致,这里只把地图补完整一点:
| 分支 | 训练信号 | 典型问题 | 本书对应 |
|---|---|---|---|
| 监督学习 | 样本带标准答案 | 图片分类、房价预测、垃圾邮件识别 | 第 2–11 章、MNIST |
| 无监督学习 | 没有人工标签,自己找结构 | 聚类、降维、异常检测、表示学习 | 第 27 章 |
| 自监督学习 | 从数据里自动造题和答案 | 预测下一个词、遮住一块图让模型补 | 第 19 章、第 20 章 |
| 强化学习 | 奖励/惩罚,靠试错改策略 | 下棋、机器人控制、推荐策略、RLHF | 第 12 章、第 25 章 |
| 半监督/主动学习 | 少量标签 + 大量无标签,或主动挑样本请人标 | 标注很贵的医疗、工业质检、语音数据 | 本书只建立概念 |
注意:这些不是互斥阵营。一个真实系统常常会混用:先自监督预训练,再监督微调,最后用强化学习/偏好数据做对齐。
3. 按“任务”分:它要帮你做什么?
另一种更贴近业务的分法,是看输出到底是什么。你以后看到一个 AI 项目,先问“它在输出什么”,通常就能定位七八成:
| 任务族 | 输出 | 常见场景 | 常见模型 |
|---|---|---|---|
| 分类 | 离散类别 | 猫/狗/人脸、垃圾邮件、故障类型 | 逻辑回归、树模型、CNN、Transformer |
| 回归 | 连续数值 | 价格、销量、温度、风险分数 | 线性模型、GBDT、MLP |
| 排序/推荐/搜索 | 一组候选的顺序 | 搜索结果、短视频推荐、广告排序 | GBDT、双塔、召回+排序、强化学习 |
| 序列预测 | 下一个时间点/下一个 token | 语言模型、时间序列、语音识别 | RNN、Transformer、状态空间模型 |
| 生成 | 新内容 | 写文章、画图、生成代码、做视频 | 语言模型、扩散模型、多模态模型 |
| 决策与控制 | 动作/策略 | 游戏、机器人、调度、自动驾驶局部规划 | 强化学习、规划、模仿学习 |
| 异常检测 | 是否“不像正常样本” | 风控、机器故障、入侵检测 | 统计模型、自编码器、孤立森林 |
因为很多任务都可以被改写成“给一段上下文,预测接下来该输出什么”: 分类可以输出类别名,翻译可以输出目标语言句子,写代码可以输出代码,工具调用可以输出结构化参数。 这不是说传统分支消失了,而是语言模型把很多任务统一进了一个序列生成接口。
4. 按“模型家族”分:它用什么脑子?
学习信号和任务说的是“怎么学、做什么”;模型家族说的是“用什么结构承载规律”。历史上几条路线长期并存:
| 家族 | 直觉 | 强项 | 短板 |
|---|---|---|---|
| 规则/符号系统 | 专家把规则写进去 | 可解释、可控、适合明确流程 | 规则难覆盖真实世界长尾 |
| 线性/广义线性模型 | 特征加权求和 | 快、稳、好解释 | 表达力有限,依赖人工特征 |
| 树模型/集成 | 一堆 if-else 自动组合 | 表格数据非常强,工程成熟 | 不擅长原始图像/语音/长文本 |
| 核方法/SVM | 把数据映到更高维再切开 | 小中型数据、理论漂亮 | 大规模数据和端到端表示学习不方便 |
| 神经网络 | 多层可学习变换 | 图像、语音、文本、多模态都能端到端学 | 吃数据和算力,解释难,调参多 |
| 概率/因果模型 | 显式建模不确定性和因果关系 | 科学、医疗、决策分析里很重要 | 建模假设难,和深度学习融合仍在发展 |
| 大模型(深度学习的规模化形态) | 神经网络放到超大规模,先预训练再迁移 | 通用、可交互、可当平台;一套底座多任务 | 成本高、可靠性和治理挑战大 |
不要把“新”误解成“旧的没用了”。到 2026 年,金融风控、广告排序、工业质检里仍大量使用树模型、线性模型和规则系统;大模型不是独立的第七家,它本身就是神经网络/深度学习放大后的形态,更像在这些经典家族之上新增了一层强大的通用接口。
4.1 为什么最后是深度学习脱颖而出?
既然这么多家族各有强项,为什么最近十几年的舞台中央是深度学习?先把它们放在几个关键维度上摆一摆:
| 维度 | 线性 / 树 / SVM 等经典模型 | 深度学习 |
|---|---|---|
| 要不要人工设计特征 | 大多要:得靠专家把原始数据加工成好用的特征 | 不用:从原始像素/文字里自动学出层次化特征 |
| 数据越多越强吗 | 到一定量就饱和,再喂也涨不动 | 基本越多越强,能吃下海量数据持续变好 |
| 原始感知数据(图/音/文) | 弱,需要大量预处理 | 强项,端到端直接处理 |
| 表格 / 中小数据 | 强,又快又准还好解释 | 常常不划算,容易过拟合 |
| 算力需求 | 低,一台笔记本就能跑 | 高,吃 GPU / 大规模并行 |
| 可解释性 | 好(尤其决策树、线性) | 差,更像黑盒 |
看这张表就明白:深度学习赢的不是“样样都最好”——在表格数据、小样本、要解释的场景里,它至今都不占优(第 28 章的树模型就常常更好用)。 它真正的杀手锏只有一个,但极其关键:
① 自动学特征。经典模型最费人的一步是“人工设计特征”;深度学习把这步也交给网络自己学(第 13 章的 CNN 逐层从边缘到物体),
在图像、语音、文本这些原始感知数据上一举甩开对手。
② 越大越强、能吃数据。经典模型喂到一定量就饱和,深度网络却能随数据和参数一起放大持续变好——这正是第 20 章“规模定律”和大模型的根基。
③ 恰好赶上了算力和数据。2012 年前后,GPU 算力 + 互联网级数据同时到位,深度学习“吃数据吃算力”的胃口第一次被喂饱,于是AlexNet 一炮而红。
所以更准确的说法是:深度学习不是取代了其它家族,而是打开了一片它们做不到的新疆域——凡是“数据海量、又是原始感知信号”的任务,它几乎通吃; 而在表格、小样本、强解释的老阵地上,经典模型依旧稳稳地在用。这也呼应了本节开头那句:不要把“新”误解成“旧的没用了”。
5. 一条时间线:机器学习怎么走到今天
这条时间线不求列全所有论文,只抓对今天影响最大的转折。你会发现,机器学习的发展并不是一路直线上升, 而是反复经历“想法超前 → 算力/数据不够 → 沉寂 → 条件成熟后爆发”。
6. 别只看 demo:判断一个 AI 项目是否靠谱
以后看到一个模型、产品、论文或创业项目, 先别急着被演示效果带走,按下面五个问题过一遍:
| 先问什么 | 具体看什么 | 最常见的坑 | 本书对应 |
|---|---|---|---|
| 准不准? | 有没有真实测试集、边界样本、失败案例;指标是否和业务目标一致 | 只展示漂亮 demo,benchmark 高但真实数据上一塌糊涂 | 评估与数据 |
| 稳不稳? | 多跑几次是否一致;长上下文、工具调用、多轮交互会不会掉链子 | 演示时成功一次,上线后幻觉、漏读、乱调用工具 | 幻觉与使用 |
| 贵不贵? | 训练/推理成本、延迟、吞吐、显存、并发;能否量化、缓存、批处理 | 能跑,但跑不起;用户一多,成本和延迟直接爆掉 | 大模型工程 |
| 安不安全? | 数据权限、隐私、审计、输出边界、越权操作、版权与合规责任 | 把内部数据随手喂给外部模型,或让 Agent 拿到过大的权限 | RAG / Agent |
| 接得进流程吗? | 人机分工、回退方案、监控、人工复核、和现有系统的数据接口 | 做了一个聊天框,但没人知道该在流程里什么时候用、错了谁兜底 | 强化学习策略 |
真正落地时,“能生成一段漂亮回答”只是第一关。评估、成本、可靠性、权限和流程接入,往往才决定它有没有用。
AI 项目最容易骗人的地方,不是模型完全没能力,而是能力只在少数样例里成立。 所以你要学会追问:失败率是多少?失败时能不能发现?发现后谁处理?处理成本是否还能接受?
7. 以后看到新名词,用这四个问题定位
AI 名词更新太快,硬背会很累。更好的办法是用四个问题给它“归档”:
- 它学什么信号? 是监督、无监督、自监督、强化学习,还是混合?
- 它输出什么? 类别、数值、排序、文本、图像、动作,还是工具调用?
- 它靠什么结构? 树模型、CNN、RNN、Transformer、扩散模型、检索系统,还是多模型组合?
- 它解决什么瓶颈? 能力、成本、速度、长上下文、可靠性、数据隐私、部署还是交互体验?
不要追着每个新缩写跑。先抓住任务、数据、模型、损失、优化、评估、部署这七个骨架。 新名词再花哨,通常也只是这七件事的某个组合或改良。
| 新名词 | 它学什么 / 用什么 | 它输出什么 | 它主要解决什么瓶颈 |
|---|---|---|---|
| RAG | 检索系统 + 语言模型,通常不需要重新训练大模型 | 带外部资料依据的回答 | 模型记不住最新/私有知识,也容易凭空编 |
| Agent | 语言模型 + 工具调用 + 多步循环 | 一串动作:查资料、写文件、调用接口、再总结 | 把“回答问题”扩展成“执行任务” |
| MoE | Transformer 里把部分 FFN 换成多个专家,Router 只激活少数几个 | 仍是 token 概率或中间表示 | 参数变多但每次只算一部分,在能力和成本之间折中 |
| LoRA | 冻结大模型原权重,只训练低秩小矩阵 | 同一个模型接口,但更贴近某个任务/风格 | 全量微调太贵、显存太吃紧、部署版本太多 |
| 扩散模型 | 学习从噪声一步步还原数据的去噪过程 | 图片、视频、音频等连续信号 | 生成高质量视觉内容,比逐 token 生成更适合图像 |
| GBDT | 一棵接一棵的树,每棵补前面模型的错 | 分类概率、回归数值、排序分数 | 表格数据上追求高精度,且训练/推理成本可控 |
这样归档之后,新名词就不再神秘:先看它属于哪类数据、哪类模型、哪类输出,再看它到底解决哪个旧瓶颈。
资料来源与延伸阅读
这一章的时间线和延伸阅读参考了几类资料,不要求逐篇读完;以后想核对关键节点,这些比二手文章稳:
- Stanford HAI · 2026 AI Index Report:年度 AI 能力、产业、治理、社会影响综述。
- Dartmouth · AI 一词的诞生:1956 年 Dartmouth 项目的背景。
- Rumelhart, Hinton, Williams · Back-propagation:反向传播经典论文。
- AlexNet · ImageNet 2012:深度学习视觉浪潮的关键节点。
- Attention Is All You Need:Transformer 原始论文。
- OpenAI · Introducing ChatGPT:2022 年 ChatGPT 发布说明。
小结
- AI ⊃ 机器学习 ⊃ 深度学习;生成式 AI 和大模型主要是深度学习规模化后的重要分支。
- 按学习信号看,有监督、无监督/自监督、强化学习;真实系统常常混合使用。
- 按任务看,有分类、回归、排序/推荐、序列预测、生成、决策控制、异常检测等。
- 模型家族长期并存:规则、线性模型、树模型、核方法、神经网络(及其规模化形态大模型)、概率/因果模型各有位置;深度学习靠“自动学特征 + 越大越强 + 赶上算力数据”在感知类任务上脱颖而出,但没有取代经典模型。
- 关键时间线:1956 AI 命名,1957/58 感知机,1986 反向传播,2012 AlexNet,2016 AlphaGo,2017 Transformer,2022 ChatGPT,2025–2026 走向多模态、Agent、科学和真实工作流。
- 看 AI 产品不能只看 demo:要追问准不准、稳不稳、贵不贵、安不安全、能不能接进真实流程。
- 看到新名词,先问学习信号、输出任务、模型结构和解决的瓶颈,再把它放回地图里。
动手与思考
问题 1:AI、机器学习、深度学习、大模型是什么关系?
AI 是最大目标;机器学习是从数据里学规律的路线;深度学习是机器学习里用多层神经网络的路线;大模型是深度学习在海量数据、算力和自监督训练下形成的规模化模型。
问题 2:为什么说自监督是大模型时代的关键?
因为它能从无标注数据里自动造训练目标,比如“预测下一个 token”。这样模型就能利用海量文本、图像和代码,不必等人类逐条标注答案。
问题 3:传统机器学习在大模型时代还有用吗?
有。表格数据、风控、广告排序、工业规则、低成本部署等场景里,线性模型、树模型、规则系统仍然很强。大模型提供了新的通用接口,但不会把所有旧工具一夜清空。
问题 4:看到一个新 AI 名词,最该先问什么?
先问四件事:它靠什么学习信号?输出什么?用什么模型结构?解决什么瓶颈?这四个问题能把大多数新概念放回地图里。
地图展开了 · 接着挑两支深入看
有了这张全景图,后面两章番外各挑一支主线之外的分支深入:先看那支“没有标签也能学”的无监督与自监督, 再看在表格数据上至今仍是主力的决策树与随机森林。