Apr, 2024

软化偏好优化:将语言模型与专家分布对齐

TL;DR我们提出了软偏好优化(SPO)方法,它能够使生成模型(如大型语言模型LLMs)与人类偏好对齐,无需奖励模型。SPO通过一种自然损失函数,在整个模型的输出分布中最大程度地优化模型输出,包括偏好损失和正则化项。虽然SPO不需要假设现有的基础奖励模型,但我们证明,在布拉德利-特里(BT)模型的假设下,它收敛于缩放奖励的softmax,通过调整softmax指数,可以调节分布的“软度”。我们展示了SPO的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。