ACLJun, 2024

大型语言模型的混合对齐训练

TL;DR该研究提出了一种混合对齐训练方法(Hbat),基于交替对齐和修改的弹性权重共享方法,实验结果表明,该方法可以在摘要和对话任务中显著超过所有基线模型的性能表现,尤其在使用近端策略优化和直接偏好优化时。