Jun, 2024

直接对齐中的平均对数似然

TL;DR为了更好地将大型语言模型与人类判断相一致,本研究通过从人类反馈中学习奖励模型,然后使用规则化强化学习进行优化。最近,引入了直接对齐方法,通过从偏好数据集中学习一个经过调优的模型,而无需计算代理奖励函数。然而,这些方法建立在包含对训练模型中(不)偏好完成的对数似然的对比损失上。然而,完成有各种长度,而对数似然不是长度不变的。为了调和这些方法,我们引入了一种使直接对齐长度不变的原则性方法。形式上,我们引入了一个新的平均算子,与给定基本 RL 问题的最佳策略算子结合使用。它在损失函数中对对数似然进行平均。通过实证研究这种平均化的效果,我们观察到生成文本的长度和其评分之间的权衡关系。