人工智能辅助机器翻译的人工评估
机器翻译评估中,综合的错误分类方法如多维度质量度量 (MQM) 需要耗费大量时间和专家参与,而只赋予整体评分,如直接评估 (DA),虽然简单快捷但可靠性较低。本文提出一种人工评估协议 —— 错误跨度标注 (ESA),将 DA 的连续评分与 MQM 的高级错误严重程度标记相结合。通过与 12 个 MT 系统和一份人工参考翻译 (英语到德语) 从 WMT23 的 MQM 和 DA 进行比较,验证了 ESA 的有效性。结果显示 ESA 在具有相同质量水平的情况下比 MQM 更快且更便宜,无需昂贵的 MQM 专家。
Jun, 2024
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2023)中几项共享任务的结果进行全面人类评估,填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论:1) 提出的评估策略稳健,与其他类型的人类判断得分相关性很好;2) 自动指标通常与直接评估得分相关性较好,但不总是如此;以及 3) 虽然通过重新分割步骤引入了分割噪声,但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究,我们发布了收集到的人类标注数据。
Jun, 2024
提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架,能够对 WMT 的翻译结果进行质量评估,并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。
Jul, 2018
本文提出一种使用参数化的神经机器翻译目标函数的简单约束解码算法来改善翻译质量的方法,并在一个基准数据集上进行了验证,结果表明该算法在翻译质量和时间效率方面都优于现有方法。
Nov, 2022
本文分析了在 42 种语言和三个任务(问答,命名实体识别,事件抽取)上,将标注数据转换为多种语言的效果以及不同的标签投影方法,发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。
Nov, 2022
本文介绍了自动矫正人为翻译错误的任务,并通过制作 Aced 语料库并建立三个 TEC 数据集,探究矫正人为翻译错误的模型的需要。我们发现人类错误比机器翻译的翻译流畅度错误更为多样,需要专门的 TEC 模型来矫正。通过在人类错误上的合成错误的预训练,我们的 TEC 系统在 F1 得分上获得了 5.1 个百分点的提升,并在人机交互实验中表现出卓越的能力。
Jun, 2022