正文
Loss(损失值):
- 定义: 这是一个标量(Scalar),比如 “3.5” 或 “0.01”。
- 含义: 它代表模型“预测结果”和“真实答案”之间的差距。差距越大,Loss 越大。
- 作用: 它是裁判,告诉模型现在的表现有多差。
梯度(Gradient):
- 定义: 这是一个向量/矩阵,形状和模型参数一模一样。
- 含义: 它是 Loss 对参数的导数($\nabla L$)。通俗地说,它是一个“方向指引”。它告诉每个参数:“如果你想让 Loss 变小,你应该往哪个方向变,变多少”。
- 注意: 梯度不是参数,它是参数变化的“建议书”。
模型参数(Model Parameters / Weights):
- 定义: 模型里实际存储的权重矩阵(就是上面提到的 $W$)。
- 更新过程:我们不更新梯度,我们是利用梯度来更新参数。
公式通常是:
- 更新的梯度指的是模型参数吗?不是。 梯度是临时的“修改建议”,用完通常就扔了(或者清零)。我们真正要更新并保存下来的是模型参数。
- 和 Loss 什么关系?因果关系。 没有 Loss 就无法计算梯度。Loss 是源头,梯度是 Loss 传回来的信号,用来指导参数如何调整以在下一次把 Loss 降得更低。