研究发现 2018 年 Hassan 等人的评估设计有问题,导致其认为人工翻译和机器翻译有同等水平的结论不准确,因此需要重新审视现有的评估方法,并且提出了一系列改进建议。
Apr, 2020
本文重新评估了一项最近的研究 (Hassan et al.,2018),即使用成对排序法并考虑到三个变量,重申机器翻译在从中文到英文的新闻翻译方面已达到人类水平,我们提供了一组人类评估未来机器翻译的建议。
Aug, 2018
该篇论文讨论了机器翻译的发展与挑战,评估了微软近期机器翻译系统在中英新闻翻译中的表现,结果显示该系统已经能够达到人类专业翻译水平。
Mar, 2018
本文重新评估 WMT 2019 机器翻译任务中英德、英俄和德英三个方向人工翻译水平与超人类水平的声明,发现除了英德方向人类翻译水平与机器翻译持平外,其他所有声明都被推翻,并提出了启示和未来评估的开放性问题。
May, 2020
这篇综述论文旨在总结文档级机器翻译的最新研究进展,重点讨论了神经网络模型、训练策略、评估指标等方面的创新,为该领域的研究者提供状态认知和未来方向。
Dec, 2019
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
该研究提出了一种基于自训练的方法,可以在不需要专门的并行文档级语料库和模型的情况下,将已训练好的句子级神经机器翻译模型应用于文档级机器翻译任务,并在三个文档级数据集上进行了评估,结果显示我们的方法在 BLEU 指标上具有更高的得分和更高的人类偏好度。
Mar, 2020
本文给出了关于文档级机器翻译的文献综述,对比了各种方法在两个文档级评估套件上的表现,并发现基于单语文档的回译方法在文档级评估和人类评估方面都能达到相同结果,因此不需要设计过于复杂的模型。
Jan, 2021
本文介绍了微软译者参加 WMT19 新闻翻译的论文,重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集,并探索了微调技术,更深层次的模型以及不同的集成策略,最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中,研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。
Jul, 2019
本研究提出了一种文学机器翻译方法,通过 Par3 数据集,证明专业翻译员更喜欢校对后的机器翻译输出,而不是普通的机器翻译输出。
Oct, 2022