基于测试套件的德英机器翻译的细粒度评估
本文介绍了应用语法测试套件对 WMT19 提交的德语 - 英语机器翻译系统的结果,其中包含 107 个类别的详细分析。研究表明,这些系统中有四分之一的测试项目翻译错误率仍很高,其中包括习语、动词语态等。与去年相比,功能词、非动词一致性和标点符号等方面有所改善。本文还给出了关于特定系统和现象的更详细的结论。
Oct, 2019
本文提出了一种基于多维质量度量(Multidimensional Quality Metrics,MQM)误差分类的手动评估方法,以评估不同机器翻译系统之间的性能差异是否显著,针对英语到克罗地亚语这一翻译方向,比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统,发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。
Feb, 2018
利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为,提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法,并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。
Sep, 2023
通过对神经机器翻译实现对特定语言现象的质量评估,我们提出了一种新方法并给出了包含 97000 对用于 WMT 英语 -> 德语翻译任务的对照翻译数据集 LingEval97,对字符级别和字节对编码(BPE)分割模型的实验结果显示,前者在翻译转写方面表现更好,但在形态句法协议和翻译非连续的意义单元方面表现较差。
Dec, 2016
本文介绍了第七届机器翻译会议的机器翻译任务自动评估,其中评估了 185 种系统,包括高资源到低资源语言对和从密切相关到远离的语言。自动度量标准 chrF、BLEU 和 COMET 可以相互补充以减轻解释性和准确性方面的限制,并凸显了当前最先进的机器翻译系统的一些局限性。
Sep, 2022
使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配,翻译 - 测试可以比之前假定的效果更好,从而对跨语言分类的多语言模型的支配提出了质疑,并促使更多关注基于机器翻译的基准线。
May, 2023
自 20 世纪 50 年代以来,机器翻译 (MT) 已成为人工智能和开发的重要任务之一,并经历了几个不同阶段的发展,随着这些发展,评估方法在统计翻译和神经翻译研究中扮演着重要角色,该报告概述了评估方法的发展历程、研究方法分类和最新进展,并包括参考翻译的手动评估和自动评估方法。
Feb, 2022
本研究通过错误标注的方法比较了三种统计机器翻译方法(基于短语、因式分解基于短语和神经网络),结果显示最佳性能的神经网络系统比最差性能的基于短语系统减少了 54% 的错误,而错误类型符合多维质量度量标准(MQM)。
Jun, 2017
本研究通过对土耳其语系 22 种语言的大规模机器翻译系统的培训和评估,发现 MNMT 模型在领域外测试集中的表现优于几乎所有双语基线,并在单对下游任务的微调中也获得了巨大的性能提升。
Sep, 2021