基于测试套件的德英机器翻译的细粒度评估

Oct, 2019

基于测试套件的德英机器翻译的细粒度评估

Fine-grained evaluation of German-English Machine Translation based on a Test Suite

Vivien Macketanz, Eleftherios Avramidis, Aljoscha Burchardt, Hans Uszkoreit

TL;DR本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Abstract

We present an analysis of 16 state-of-the-art mt systems on german-english based on a linguistically-motivated test suite. The

mt systems german-english linguistic phenomena test suite performance

发现论文，激发创造

使用测试套件对德英机器翻译进行语言评估

本文介绍了应用语法测试套件对 WMT19 提交的德语 - 英语机器翻译系统的结果，其中包含 107 个类别的详细分析。研究表明，这些系统中有四分之一的测试项目翻译错误率仍很高，其中包括习语、动词语态等。与去年相比，功能词、非动词一致性和标点符号等方面有所改善。本文还给出了关于特定系统和现象的更详细的结论。

Oct, 2019

机器翻译系统的定量细致人类评估：以英语到克罗地亚语为例的案例研究

本文提出了一种基于多维质量度量（Multidimensional Quality Metrics，MQM）误差分类的手动评估方法，以评估不同机器翻译系统之间的性能差异是否显著，针对英语到克罗地亚语这一翻译方向，比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统，发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。

Feb, 2018

自动化行为测试在机器翻译中的应用

利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为，提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法，并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。

Sep, 2023

字符级神经机器翻译的语法性如何？通过对比翻译对评估机器翻译质量

通过对神经机器翻译实现对特定语言现象的质量评估，我们提出了一种新方法并给出了包含 97000 对用于 WMT 英语 -> 德语翻译任务的对照翻译数据集 LingEval97，对字符级别和字节对编码（BPE）分割模型的实验结果显示，前者在翻译转写方面表现更好，但在形态句法协议和翻译非连续的意义单元方面表现较差。

Dec, 2016

WMT22 通用机器翻译任务的自动评估

本文介绍了第七届机器翻译会议的机器翻译任务自动评估，其中评估了 185 种系统，包括高资源到低资源语言对和从密切相关到远离的语言。自动度量标准 chrF、BLEU 和 COMET 可以相互补充以减轻解释性和准确性方面的限制，并凸显了当前最先进的机器翻译系统的一些局限性。

Sep, 2022

跨语种分类中机器翻译的再次研究

使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配，翻译 - 测试可以比之前假定的效果更好，从而对跨语言分类的多语言模型的支配提出了质疑，并促使更多关注基于机器翻译的基准线。

May, 2023

困难感知机器翻译评估

提出一种考虑翻译难度的机器翻译评估方法，结果显示在 WMT19 上表现出色。

Jul, 2021

机器翻译评估概述

自 20 世纪 50 年代以来，机器翻译 (MT) 已成为人工智能和开发的重要任务之一，并经历了几个不同阶段的发展，随着这些发展，评估方法在统计翻译和神经翻译研究中扮演着重要角色，该报告概述了评估方法的发展历程、研究方法分类和最新进展，并包括参考翻译的手动评估和自动评估方法。

Feb, 2022

神经网络与基于短语的机器翻译的细粒度人类评估

本研究通过错误标注的方法比较了三种统计机器翻译方法（基于短语、因式分解基于短语和神经网络），结果显示最佳性能的神经网络系统比最差性能的基于短语系统减少了 54% 的错误，而错误类型符合多维质量度量标准（MQM）。

Jun, 2017

评估土耳其语系多语言多向 NMT 技术

本研究通过对土耳其语系 22 种语言的大规模机器翻译系统的培训和评估，发现 MNMT 模型在领域外测试集中的表现优于几乎所有双语基线，并在单对下游任务的微调中也获得了巨大的性能提升。

Sep, 2021