Apr, 2024
对 DPO 及其变种在多个任务中的对齐研究
Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks
Amir Saeidi, Shivanshu Verma, Chitta Baral
TL;DR通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。