Jun, 2023

人体对齐的偏好排名优化

TL;DR提出了一种名为Preference Ranking Optimization(PRO)的新型策略,旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名,实现语言模型(LLMs)的与人类价值观的对齐。研究结果表明,PRO优于现有的对齐算法,并通过基于自动化、奖励、GPT-4和人类评估的实验来达到与ChatGPT和人类响应相当的结果。此外,作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将LLMs与人对其的对齐性能。