Apr, 2024

从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数

TL;DR使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。