机器翻译质量估计的实用视角

May, 2020

Practical Perspectives on Quality Estimation for Machine Translation

Junpei Zhou, Ciprian Chelba, Yuezhang, Li

TL;DR本研究旨在提高机器翻译句子水平的翻译编辑速率预测，提出了句子水平的质量分类（QC）观点，以优化召回率，并通过二进制分类器的使用可将后编辑工作量减少至50-60％。

Abstract

Sentence level quality estimation (QE) for machine translation (MT) attempts to predict the translation edit rate (TER) cost of post-editing work required to correct MT output. We describe our view on sentence-le

发现论文，激发创造

基于分解的神经机器翻译模型集成用于自动后编辑和质量评估

利用多个专门的神经机器翻译系统，将已被证明在词级质量估计中有效的特征作为输入因素，扩展原始源和机器翻译假设的表示，生成自动后编辑的假设，并在单个框架内连接自动后编辑和词级质量估计的最先进方法，进而通过调整实现两个任务的最优表现。

Jun, 2017

MLQE-PE: 多语言质量估计和后编辑数据集

MLQE-PE为机器翻译质量评估和自动后编辑提供了新数据集，包含11种语言对，针对每种语言对的10000个翻译提供了人类标签，包括句子级别的直接评估和后编辑努力以及单词级别的好/坏标签，同时还提供了后编辑的句子、标题以及用于翻译文本的神经机器翻译模型。

Oct, 2020

跨语言Transformer多语言词级质量评估的探索性分析

本文探讨了以往机器翻译的词汇质量评估模型的局限性，并提出了基于强大的预训练Transformer模型的跨语言通用性的词汇质量评估模型，证明其在跨语言模型训练、零样本/少样本数据归集的情况下，很好地泛化了，并且在实际应用中具有更广泛的应用前景。

May, 2021

基于分类的质量评估：用于实际应用的小型高效模型

我们研究了句子级机器翻译的质量估计(QE)问题，发现传统的基于回归的方法以及基于压缩模型的方法都不能很好地解决实际应用中的问题，而基于分类的方法可以更好地反映他们在实际应用中的性能表现。

Sep, 2021

推动正确按钮：对质量评估的对抗性评估

该论文提出了一种对机器翻译中的质量评估进行敌对测试的方法，通过研究近期最优设备的评价体系，发现某些含有意义错误的翻译结果是难以被评估系统检测的。同时，该论文还研究了翻译结果保留原本含义和改变原本含义两种扰动的区别，并探讨了这种方法对于评估系统的多个领域可能产生的影响以及评估结果可行性的可比性。

Sep, 2021

重新思考基于人工判断的机器翻译单词质量评估

该论文旨在通过自监督的预训练方法以及标记修正策略，提高机器翻译的质量估计，避免传统质量评价准则的局限性，并通过人类专家的直接评注来构建不需要参考文献的数据集HJQE的实验结果证实了我们的方法的有效性。

Sep, 2022

基于扰动的质量评估: 一种可解释的无监督词级别黑盒机器翻译质量评估方法

本研究提出基于扰动的无监督学习方法，用于评估黑盒机器翻译模型的质量，表现出更好的泛化能力和解释性。

May, 2023

使用精调的OpenAI LLM预测机器翻译输出中的完美质量段落：是否能从历史数据中捕捉编辑距离模式？

大型语言模型可进行细调从而在翻译质量评估方面取得较高的预测准确性。

Jul, 2023

没有比更好的数据更好的数据：使用质量度量对MT数据进行过滤

使用质量评估（QE）指标过滤训练数据的句子对可以提高翻译质量并减少训练规模一半。

Nov, 2023

从手工特征到LLMs：机器翻译质量估计的简要调查

机器翻译质量评估（MTQE）是实时估计机器翻译文本质量的任务，不需要参考翻译，对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。

Mar, 2024