Apr, 2025

通过参考答案学习:无需二元人类偏好数据的多功能语言模型对齐

TL;DR本研究解决了大型语言模型(LLMs)对齐过程中对人类偏好数据收集的高成本问题。我们提出了一种新方法,利用样本生成与高质量参考答案之间的相似性作为奖励函数,通过开发RefAlign算法,显著提高了对齐效率,并适用于各种对齐场景,如安全和信任度对齐。研究结果显示,RefAlign在多个场景中具备与传统方法相当的性能,且更具高效性。