May, 2025

ComPO:通过比较 oracle 实现偏好对齐

TL;DR本文解决了现有直接对齐方法在处理语言模型与人类偏好对齐中存在的冗长性和可能性偏移问题。提出了一种基于比较 oracle 的新偏好对齐方法,并通过实验展示了其在利用噪声偏好对进行语言模型性能提升中的灵活性和兼容性。实验结果证明了该方法作为替代方案的有效性,并强调了设计针对具有不同可能性边际的偏好对的专用方法的重要性。