附录

术语表:名词速查

只收录深度学习 / 大模型里的专用名词(如 model_dim、causal mask、MoE),每个一句话讲清并链到详解章节。普通数学词(向量、矩阵、张量)、太泛的词(模型、训练、token)不在此列。正文里蓝色虚线的词可点击查看释义。

网络基础

神经元 neuron — 最小积木:加权求和 + 偏置 + 激活函数。→ 第 2 章
MLP 多层感知机 — 层层全连接的最朴素网络,适合固定长度输入。→ 第 3 章
前向传播 forward propagation — 数据从输入一层层向前流动,算出预测。→ 第 3 章

训练三件套

损失函数 loss — 把“错得多离谱”量化成一个数;越小越好。→ 第 4 章
交叉熵 cross-entropy — 分类常用损失,−log(正确类的预测概率)。→ 第 4 章
softmax — 把一排分数变成一排加起来为 1 的概率。→ 第 4 章
梯度下降 gradient descent — 沿梯度反方向一小步步降低损失。→ 第 5 章
学习率 learning rate — 每步挪多大;太大发散、太小太慢。→ 第 5 章
batch / epoch / step — 一小撮样本 / 全数据过一遍 / 一次参数更新。→ 第 5 章
反向传播 backpropagation — 用链式法则把误差从输出反传回每个参数。→ 第 6 章
激活函数 activation — 给神经元加“非线性的弯”,没它深度就白搭。→ 第 7 章
ReLU — 负数砍成 0、正数放行;最常用的默认激活。→ 第 7 章
GELU — 平滑版 ReLU,Transformer / GPT 常用。→ 第 7 章
梯度消失 — 梯度反传时越乘越小、趋近 0,深层学不动(Sigmoid 易犯)。→ 第 7 章
优化器 optimizer — 决定“拿到梯度后参数怎么挪”的策略。→ 第 8 章
Adam / AdamW — Momentum + 自适应步长 + 偏差校正;训大模型的默认选择。→ 第 8 章

训练技巧与评估

参数初始化 — 训练开始前给权重设一个合适的随机起点(如 He / Xavier)。→ 第 9 章
学习率调度 — 训练过程中动态调学习率(如 warmup + 余弦退火)。→ 第 9 章
梯度裁剪 — 给梯度设上限,防止爆炸导致训练崩。→ 第 9 章
过拟合 / 欠拟合 — 训练好测试差(背题) / 都差(没学会)。→ 第 10 章
正则化 regularization — 给学习加约束/干扰,逼模型别背训练集。→ 第 10 章
weight decay(L2) — 惩罚过大权重,让模型更平滑克制。→ 第 10 章
Dropout — 训练时随机关掉部分神经元,逼网络别依赖个别单元。→ 第 10 章
泛化 generalization — 在没见过的数据上也表现好,这才是真本事。→ 第 10 章
训练/验证/测试集 — 学 / 调 / 考三份互不重叠的数据。→ 第 11 章
精确率 / 召回 / F1 — 查得准 / 查得全 / 两者的调和平均。→ 第 11 章

网络结构

CNN 卷积神经网络 — 用小卷积核在图上滑动,专治图像。→ 第 13 章
卷积核 / 感受野 / 权重共享 — 小滤波器只看局部、全图通用,省参数又平移不变。→ 第 13 章
池化 pooling — 把特征图缩小、增强鲁棒(最大/平均)。→ 第 13 章
RNN 循环神经网络 — 用隐藏状态边读边记,处理序列;但串行、易失忆。→ 第 14 章
BPTT 按时间反向传播 — RNN 展开后沿时间步反传;共享权重在各步的梯度相加。→ 第 14 章
LSTM — 给 RNN 加“门”和记忆传送带,缓解长依赖失忆。→ 第 14 章
词嵌入 embedding — 把词表示成稠密向量(语义坐标),意思近则向量近。→ 第 15 章
word2vec — 靠“看上下文”自监督学词向量(CBOW / skip-gram)。→ 第 15 章

注意力与 Transformer

注意力 attention — 让每个词直接看全序列,按相关性做加权平均。→ 第 17 章
Q / K / V(查询/键/值) — 同一个词的三副面孔,来自三个可训练矩阵。→ 第 17 章
causal mask 因果掩码 — 屏蔽未来位置,保证生成时只看前文。→ 第 17 章
多头注意力 — 请几位“专家”各看一遍再拼接,一次看清多种关系。→ 第 17 章
残差连接 residual — 输出 = x + 子层(x),给梯度修高速公路。→ 第 18 章
LayerNorm — 对每个词向量减均值除标准差,稳住训练。→ 第 18 章
FFN 前馈网络 — 对每个 token 向量独立做“升维→激活→降维”,不跨词通信。→ 第 18 章
位置编码 — 给每个位置一个独特指纹,让模型知道词序。→ 第 18 章
Transformer — 注意力+残差+LayerNorm+FFN 拼成的可堆叠积木,大模型的地基。→ 第 18 章
cross-attention 交叉注意力 — Q 来自解码器、K/V 来自编码器,解码时“查阅原文”。→ 第 18 章
decoder-only — 只保留生成侧 Transformer 塔、带 causal mask;GPT 系列属此类。→ 第 18 章

模型结构参数(读代码常见)

model_dim 模型宽度 — 每个 token 用多宽的一条向量表示(一串有多少个数)。从 embedding 进、Transformer 层间传、LM Head 进,宽度都不变;决定大部分矩阵是 d×d。也叫 d_model、hidden size。→ 第 19 章
vocab_size 词表大小 — 模型认识多少个不同的 token;嵌入表行数、LM Head 输出行数都由它决定。→ 第 19 章
context_size 上下文长度 — 一次前向最多塞进多少个 token(上限);实际行数 n≤它。→ 第 19 章 §4.4
head_num 注意力头数 — 把 model_dim 切成几份,并行算多套注意力。→ 第 17 章
head_dim 每头宽度 — 每个头分到的维度,通常 = model_dim ÷ head_num。→ 第 17 章
feed_forward_dim FFN 中间层宽度 — FFN 先把每个 token 向量升到这个宽度(常为 4×model_dim),再压回 model_dim。→ 第 18 章
block_num 层数 — Transformer Block 堆叠多少层;每层各有一套 attention/FFN 参数。→ 第 18 章 · 参数量 → 第 20 章 §2
hidden 隐藏状态 — 某个 token 在模型内部的向量表示;形状长度 = model_dim。→ 第 18 章
LM Head 输出头 — 最后一层线性分类器:把 model_dim 维向量投影成词表上每个字的分数(logits)。→ 第 19 章
logits 打分 — softmax 之前的原始分数,还不是概率;长度 = vocab_size。→ 第 19 章
seq_len 序列长度 — 当前这句有多少个 token;与 context_size(上限)不同。→ 第 18 章

大模型

自回归 autoregressive — 把刚生成的词接回输入,循环往下写。→ 第 19 章
temperature / top-k / top-p — 控制生成随机性的三个采样旋钮。→ 第 19 章
困惑度 perplexity — 平均交叉熵取指数,衡量“平均在几个选项里纠结”。→ 第 19 章
BPE 子词分词 — 把高频组合合并成一个 token,序列更短更高效。→ 第 20 章
Scaling Law 规模定律 — 参数/数据/算力一起放大,性能可预测提升。→ 第 20 章
参数量 — 可学习权重元素总数;GPT 系约 12Ld²+Vd。→ 第 20 章 §2
涌现能力 emergent abilities — 规模越过门槛后突然出现的新能力。→ 第 20 章
自监督 self-supervised — 答案从数据本身自动抠出(如遮词预测),不用人工标注。→ 第 20 章
预训练 / 后训练 — 海量文本上练底座 / SFT+RLHF+蒸馏调成好用的助手。→ 第 20 章
RLHF / SFT — 按人类偏好对齐 / 用指令范文微调。→ 第 20 章 · RL → 第 12 章
强化学习 RL — 靠奖励试错学策略;MDP / Q-learning / PPO。→ 第 12 章 · 代码 → 第 25 章
对齐税 alignment tax — RLHF 后更安全听话,但部分能力/创造性可能下降。→ 第 20 章
灾难性遗忘 — 微调新任务时旧本领丢失;可用 LoRA/混训缓解。→ 第 20 章
多模态 multimodal — 图/音 patch→编码→投影,与文字拼序列进 Transformer。→ 第 20 章
知识蒸馏 distillation — 让小学生模型模仿大教师模型的输出分布。→ 第 20 章
模型降智 — 多因 INT 量化、MoE 压 k/缩专家、截断、小模型、对齐过猛等链路权衡。→ 第 21 章 · 第 22 章
幻觉 hallucination — 一本正经地生成通顺却编造的内容。→ 第 20 章
KV cache — 缓存已生成词的 Key/Value,避免重复计算,加速生成。→ 第 21 章
分布式并行训练 — 把训练切到多卡:数据并行 / 流水线并行 / 张量并行三种拆法。→ 第 21 章
MoE 混合专家 — N 个并列 FFN 专家 + 路由器 top-k 门控;与专家端到端同训;总参多、算得少。→ 第 21 章
稀疏注意力 — 只算部分 token 对,把 O(n²) 降下来。→ 第 21 章
提示工程 / 思维链 — 把话说清楚 / 让它“一步步想”提升推理。→ 第 22 章
RAG 检索增强 — 先检索资料再让模型基于资料回答,治幻觉、补新知。→ 第 22 章
function calling / Agent — 让模型调用工具、多步做事,从“会聊”变“能办”。→ 第 22 章

回到全书目录,或从任意章节的左侧栏继续阅读。