loss、梯度、参数、优化器

1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

loss、梯度、参数、优化器

日期 2026-05-30

分类 1. 传统深度学习 /1.1 基础概念 /1.1.1 训练基础

标签

正文

Loss（损失值）：

定义： 这是一个标量（Scalar），比如 “3.5” 或 “0.01”。
含义： 它代表模型“预测结果”和“真实答案”之间的差距。差距越大，Loss 越大。
作用： 它是裁判，告诉模型现在的表现有多差。

梯度（Gradient）：

定义： 这是一个向量/矩阵，形状和模型参数一模一样。
含义： 它是 Loss 对参数的导数（$\nabla L$）。通俗地说，它是一个“方向指引”。它告诉每个参数：“如果你想让 Loss 变小，你应该往哪个方向变，变多少”。
注意： 梯度不是参数，它是参数变化的“建议书”。

模型参数（Model Parameters / Weights）：

定义： 模型里实际存储的权重矩阵（就是上面提到的 $W$）。
更新过程：我们不更新梯度，我们是利用梯度来更新参数。

公式通常是：

更新的梯度指的是模型参数吗？不是。 梯度是临时的“修改建议”，用完通常就扔了（或者清零）。我们真正要更新并保存下来的是模型参数。
和 Loss 什么关系？因果关系。 没有 Loss 就无法计算梯度。Loss 是源头，梯度是 Loss 传回来的信号，用来指导参数如何调整以在下一次把 Loss 降得更低。