Jan, 2024

利用人类反馈改进机器翻译:基于质量估计的奖励模型探索

TL;DR在这项研究中,我们调查了采用质量估计 (QE) 模型作为奖励模型 (基于 QE 的奖励模型) 以预测人类偏好用于反馈训练的潜力,并解决了过优化问题以及错误传播问题。通过准确检测出错误翻译并对其进行罚分,我们提出了一种简单而有效的方法。实验结果显示,利用基于 QE 的反馈训练可以在各种情况下实现持续且显著的改进,通过人类偏好研究得到了进一步验证。我们的进一步分析表明,基于 QE 的反馈训练具有高效的数据利用率:利用少量单语数据的方法可以胜过使用更大平行语料库的系统。