ACLApr, 2024

一种基于偏好的增强翻译的范式与大型语言模型

TL;DR通过基于 Plackett-Luce 模型的基于偏好的方法,成功突破了以模仿为基础的 SFT 的平台效应,从而实现了在各种 LLM 和测试环境中的性能优势。