人工智能辅助机器翻译的人工评估

Jun, 2024

人工智能辅助机器翻译的人工评估

AI-Assisted Human Evaluation of Machine Translation

Vilém Zouhar, Tom Kocmi, Mrinmaya Sachan

TL;DR机器翻译系统的质量评估被提出的错误范围标注协议辅助，使用自动质量估计填充范围注释可以提供更详细的注释并将每个范围注释的时间缩短了一半，此外还可以减少最多 24% 的注释预算。

Abstract

Annually, research teams spend large amounts of money to evaluate the quality of machine translation systems (WMT, inter alia). This is expensive because it requires detailed human labor. The recently proposed annotatio

machine translation systems annotation protocol error span annotation automatic quality estimation annotation budget

发现论文，激发创造

错误跨度标注：人工评估机器翻译的平衡方法

机器翻译评估中，综合的错误分类方法如多维度质量度量 (MQM) 需要耗费大量时间和专家参与，而只赋予整体评分，如直接评估 (DA)，虽然简单快捷但可靠性较低。本文提出一种人工评估协议 —— 错误跨度标注 (ESA)，将 DA 的连续评分与 MQM 的高级错误严重程度标记相结合。通过与 12 个 MT 系统和一份人工参考翻译 (英语到德语) 从 WMT23 的 MQM 和 DA 进行比较，验证了 ESA 的有效性。结果显示 ESA 在具有相同质量水平的情况下比 MQM 更快且更便宜，无需昂贵的 MQM 专家。

Jun, 2024

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

正确我吧：从错误纠正和标记中学习

该论文通过研究 TED 演讲的翻译数据，提出使用错误标记的标注模式可以更加高效地训练神经机器翻译模型，同时保证较高的信号强度和良好的标注代价。

Apr, 2020

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

互动机器翻译中提供建议的简易引导解码

本文提出一种使用参数化的神经机器翻译目标函数的简单约束解码算法来改善翻译质量的方法，并在一个基准数据集上进行了验证，结果表明该算法在翻译质量和时间效率方面都优于现有方法。

Nov, 2022

跨语言转移的令人沮丧的简单标签投影

本文分析了在 42 种语言和三个任务（问答，命名实体识别，事件抽取）上，将标注数据转换为多种语言的效果以及不同的标签投影方法，发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。

Nov, 2022

人工翻译的自动校正

本文介绍了自动矫正人为翻译错误的任务，并通过制作 Aced 语料库并建立三个 TEC 数据集，探究矫正人为翻译错误的模型的需要。我们发现人类错误比机器翻译的翻译流畅度错误更为多样，需要专门的 TEC 模型来矫正。通过在人类错误上的合成错误的预训练，我们的 TEC 系统在 F1 得分上获得了 5.1 个百分点的提升，并在人机交互实验中表现出卓越的能力。

Jun, 2022

在线学习与机器翻译评估：以最少的人力努力找到最佳系统

基于在线学习的机器翻译自动化指标优化方法，通过对多个语言对进行评估，快速收敛于表现最佳的前三个系统。

May, 2021