文件名 DPO(todo).md DPO(todo) 日期 2026-05-30 分类 4. 强化学习与对齐 /4.1 偏好优化 /4.1.1 DPO 标签 DPO 偏好学习 RLHF 对齐 正文 DPO是off-policy。因为DPO的输入数据为 **{ Prompt, Winner (好回答), Loser (坏回答)} **,模型主要是给Winner和Loser打分,而不进行任何序列生成。