机器翻译达到人类水平了吗？文档级别评估的案例分析

EMNLPAug, 2018

机器翻译达到人类水平了吗？文档级别评估的案例分析

Has Machine Translation Achieved Human Parity? A Case for Document-level Evaluation

Samuel Läubli, Rico Sennrich, Martin Volk

TL;DR在文档级翻译评估中，人类对于独立句子评价更偏向于人类翻译而非机器翻译，强调了机器翻译向文档级评价迈进的必要性。

Abstract

Recent research suggests that neural machine translation achieves parity with professional human translation on the WMT Chinese--English news translation task. We empirically test this claim with alternative evaluation

neural machine translation evaluation protocols pairwise ranking experiment document-level evaluation translation quality

发现论文，激发创造

评估人机语言翻译平衡性的建议

研究发现 2018 年 Hassan 等人的评估设计有问题，导致其认为人工翻译和机器翻译有同等水平的结论不准确，因此需要重新审视现有的评估方法，并且提出了一系列改进建议。

Apr, 2020

人工神经网络翻译中人类表现的重新评估：实现不可实现的目标？

本文重新评估了一项最近的研究 (Hassan et al.,2018)，即使用成对排序法并考虑到三个变量，重申机器翻译在从中文到英文的新闻翻译方面已达到人类水平，我们提供了一组人类评估未来机器翻译的建议。

Aug, 2018

自动中英文新闻翻译达到人类水平

该篇论文讨论了机器翻译的发展与挑战，评估了微软近期机器翻译系统在中英新闻翻译中的表现，结果显示该系统已经能够达到人类专业翻译水平。

Mar, 2018

WMT 2019 中机器翻译人类水平与超人表现的重新评估

本文重新评估 WMT 2019 机器翻译任务中英德、英俄和德英三个方向人工翻译水平与超人类水平的声明，发现除了英德方向人类翻译水平与机器翻译持平外，其他所有声明都被推翻，并提出了启示和未来评估的开放性问题。

May, 2020

文档级神经机器翻译：方法与评估调查

这篇综述论文旨在总结文档级机器翻译的最新研究进展，重点讨论了神经网络模型、训练策略、评估指标等方面的创新，为该领域的研究者提供状态认知和未来方向。

Dec, 2019

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

使用自我训练在句子级神经机器翻译模型中捕获文档上下文

该研究提出了一种基于自训练的方法，可以在不需要专门的并行文档级语料库和模型的情况下，将已训练好的句子级神经机器翻译模型应用于文档级机器翻译任务，并在三个文档级数据集上进行了评估，结果显示我们的方法在 BLEU 指标上具有更高的得分和更高的人类偏好度。

Mar, 2020

文档级机器翻译方法比较

本文给出了关于文档级机器翻译的文献综述，对比了各种方法在两个文档级评估套件上的表现，并发现基于单语文档的回译方法在文档级评估和人类评估方面都能达到相同结果，因此不需要设计过于复杂的模型。

Jan, 2021

微软译者在 WMT 2019 上：朝着大规模文件级神经机器翻译迈进

本文介绍了微软译者参加 WMT19 新闻翻译的论文，重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集，并探索了微调技术，更深层次的模型以及不同的集成策略，最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中，研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。

Jul, 2019

使用源自世界文学的平行段落探索文档级文学机器翻译

本研究提出了一种文学机器翻译方法，通过 Par3 数据集，证明专业翻译员更喜欢校对后的机器翻译输出，而不是普通的机器翻译输出。

Oct, 2022