Jun, 2024

语言代理的多轮偏好直接优化

TL;DR通过使用 DMPO 损失函数,对多回合任务中的大型语言模型(LLMs)进行适应,可以优化强化学习(RL)目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。