Apr, 2024

对 DPO 及其变种在多个任务中的对齐研究

TL;DR通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。