Jan, 2024

对比型偏好优化:推动机器翻译中 LLM 性能的边界

TL;DR大型语言模型在机器翻译方面表现出良好的性能,但是使用监督微调的方式仍存在一些问题,本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型,可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当甚至超过其性能的 ALMA-R 模型。