文件名 DPO(todo).md

DPO(todo)

正文

DPO是off-policy。因为DPO的输入数据为 **{ Prompt, Winner (好回答), Loser (坏回答)} **,模型主要是给Winner和Loser打分,而不进行任何序列生成。