机器翻译测试集中的翻译语效应

Jun, 2019

The Effect of Translationese in Machine Translation Test Sets

Mike Zhang, Antonio Toral

TL;DR本研究探讨了 translationese 对机器翻译测试数据的影响，发现使用 translationese 会导致 MT 系统的人工评估得分被高估，在某些情况下甚至会改变系统的排名，并且其影响与该翻译方向上现有 MT 系统的质量成反相关。

Abstract

The effect of translationese has been studied in the field of machine translation (MT), mostly with respect to training data. We study in depth the effect of translationese on →

translationese machine translation test data human evaluation scores system rankings

发现论文，激发创造

翻译还是原著？翻译化对机器翻译表现影响的因果分析

翻译术语对机器翻译评价产生影响，此文章提出了新数据集 CausalMT 并分析了其中两个重要因素，即训练测试方向匹配和数据模型方向匹配对机器翻译性能的因果影响，提出了改进机器翻译训练和评估的建议。

May, 2022

机器翻译评估中的翻译语

分析研究表明翻译产生的语言特征会对机器翻译的评估结果产生负面影响，为此我们建议排除反向创建的测试数据。同时提出了过去机器翻译评估的重新评估以及如何提高所有三个过去评估的可靠性的潜在方法。通过对过去评估中应用的显著性检验进行统计功效分析，提供可靠的人机对抗检验测试的最佳样本数量的指导建议。最后，提供未来机器翻译评估的全面检查清单。

Jun, 2019

多语言》NMT 中的翻译语作为一种语言的作用

该研究在多语言模型中将机器翻译与自然语言文本区分开来，通过对数据进行标记，使得机器翻译输出更接近自然语言文本，从而提高翻译质量评分。

Nov, 2019

关于使用回译训练的机器翻译系统的评估

使用反向翻译作为数据增广技术可以提高自然文本和翻译文本的翻译质量，并且人类翻译者更喜欢反向翻译的产物，因为它们更加流畅，建议使用语言模型得分来衡量流畅度。

Aug, 2019

机器翻译中算法偏见对语言复杂性的影响

本文研究机器翻译中偏见放大的问题，探究算法的偏见增强对语言是否会产生贫化作用。作者测试了不同的数据驱动机器翻译范式，并发现所有测试的语言对中，都存在词汇和形态上的丧失。

Jan, 2021

跨语言摘要中的翻译特征理解

本文研究了跨语言文本摘要中的翻译现象并探究了其对模型性能和评估的影响，提出了建立适合低资源语言的 CLS 系统的方法，并提供了数据集和模型发展的建议。

Dec, 2022

神经机器翻译合成数据中的领域、翻译语体和噪声

通过利用附加单语资源来创建合成训练数据，可以提高神经机器翻译的质量，本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点，并研究了不同地域、语言和噪音环境下翻译的影响。另外，本文还给出了低资源情况下前向和反向翻译的比较。

Nov, 2019

无需平行数据的翻译去 “翻译式” 重叠

研究采用自监督学习与非监督学习相结合的方法，通过基于翻译的风格转换降低翻译文本中的翻译风格，消除了对平行验证数据的需求，有效地降低了翻译类文本的分类准确性，并在目标原始风格中保持了内容和流畅度。

Oct, 2023

使用测试套件对德英机器翻译进行语言评估

本文介绍了应用语法测试套件对 WMT19 提交的德语 - 英语机器翻译系统的结果，其中包含 107 个类别的详细分析。研究表明，这些系统中有四分之一的测试项目翻译错误率仍很高，其中包括习语、动词语态等。与去年相比，功能词、非动词一致性和标点符号等方面有所改善。本文还给出了关于特定系统和现象的更详细的结论。

Oct, 2019

基于测试套件的德英机器翻译的细粒度评估

本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Oct, 2019