May, 2024

语言模型对齐的注释高效优化

TL;DR提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法,通过选择能最大化质量和多样性的回应子集并对之进行偏好标注,将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上,比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。