利用人类反馈改进机器翻译：基于质量估计的奖励模型探索

Jan, 2024

利用人类反馈改进机器翻译：基于质量估计的奖励模型探索

Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model

Zhiwei He, Xing Wang, Wenxiang Jiao, Zhuosheng Zhang, Rui Wang...

TL;DR在这项研究中，我们调查了采用质量估计 (QE) 模型作为奖励模型 (基于 QE 的奖励模型) 以预测人类偏好用于反馈训练的潜力，并解决了过优化问题以及错误传播问题。通过准确检测出错误翻译并对其进行罚分，我们提出了一种简单而有效的方法。实验结果显示，利用基于 QE 的反馈训练可以在各种情况下实现持续且显著的改进，通过人类偏好研究得到了进一步验证。我们的进一步分析表明，基于 QE 的反馈训练具有高效的数据利用率：利用少量单语数据的方法可以胜过使用更大平行语料库的系统。

Abstract

Insufficient modeling of human preferences within the reward model is a major obstacle for leveraging human feedback to improve translation quali

modeling of human preferences reward model quality estimation feedback training translation quality

发现论文，激发创造

作为基础提取的翻译错误检测

使用先进的特征归属方法对最新的品质预估模型进行了探讨，发现训练有素的句子级别品质估测模型可以用于检测翻译错误，并提出了一种新的半监督词级别品质估测方法。该研究还将品质估测任务提出作为一个用于评估特征归属的新基准。

Aug, 2021

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

重新思考基于人工判断的机器翻译单词质量评估

该论文旨在通过自监督的预训练方法以及标记修正策略，提高机器翻译的质量估计，避免传统质量评价准则的局限性，并通过人类专家的直接评注来构建不需要参考文献的数据集 HJQE 的实验结果证实了我们的方法的有效性。

Sep, 2022

神经机器翻译的无监督质量评估

提出了一种无监督方法来进行机器翻译的质量估计，该方法不需要大量专家注释数据、计算和时间来训练。该方法通过从机器翻译系统中提取有用的信息，并采用不确定性量化方法，实现了与人类判断质量的很好相关性，与最先进的监督质量估计模型相媲美。同时，他们还收集了第一个数据集，使得可以进行黑盒和白盒方法的质量估计的工作。

May, 2020

推动正确按钮：对质量评估的对抗性评估

该论文提出了一种对机器翻译中的质量评估进行敌对测试的方法，通过研究近期最优设备的评价体系，发现某些含有意义错误的翻译结果是难以被评估系统检测的。同时，该论文还研究了翻译结果保留原本含义和改变原本含义两种扰动的区别，并探讨了这种方法对于评估系统的多个领域可能产生的影响以及评估结果可行性的可比性。

Sep, 2021

机器翻译质量估计的实用视角

本研究旨在提高机器翻译句子水平的翻译编辑速率预测，提出了句子水平的质量分类（QC）观点，以优化召回率，并通过二进制分类器的使用可将后编辑工作量减少至 50-60％。

May, 2020

知识蒸馏用于质量评估

为了调整预先训练的质量评估模型的体积，将强质量评估教师模型的知识直接转移到体积更小的模型中，并结合数据增强，得到了具有 8 倍更少参数的轻量级质量评估模型。

Jul, 2021

采用 RLHF 推进翻译偏好建模：迈向经济高效的解决方案

利用加强学习与人类反馈（RLHF）来改善机器翻译的质量，通过优化奖励模型区分人工和机器翻译，实验结果表明 RLHF 可以有效提升翻译质量，并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。

Feb, 2024

基于分类的质量评估：用于实际应用的小型高效模型

我们研究了句子级机器翻译的质量估计 (QE) 问题，发现传统的基于回归的方法以及基于压缩模型的方法都不能很好地解决实际应用中的问题，而基于分类的方法可以更好地反映他们在实际应用中的性能表现。

Sep, 2021

不排名，合并！使用质量估计组合机器翻译假设

使用质量评估指标（QE）的方法 ——QE-fusion，能够利用候选池子中的不同候选结合 QE 度量，从而更好地对应人类判断，从而合成改进的翻译。QE-fusion 是一种与波束搜索和最新的重新排序技术（如最小贝叶斯风险解码和 QE - 重新排序）相比的方法，能在大型语言模型和多语种翻译模型上提高翻译质量。该方法在近半数的情况下生成了新颖的翻译，并在候选数量（5-200）不同的情况下始终优于其他方法。此外，实验证明 QE-fusion 与候选池中的候选数量呈线性关系，并且无需对大型语言模型进行昂贵的重新训练。

Jan, 2024