评估最佳参考翻译
自动机器翻译度量通常使用人工翻译来确定质量系统翻译,然而在这篇论文中我们发现,高质量的参考翻译可以提高度量与人类之间的相关性,并通过对多个参考翻译取平均值来改善所有度量的效果,这些发现可用于共享任务的评估者在特定预算下创建参考翻译以最大化度量的成功。
Jan, 2024
研究发现 2018 年 Hassan 等人的评估设计有问题,导致其认为人工翻译和机器翻译有同等水平的结论不准确,因此需要重新审视现有的评估方法,并且提出了一系列改进建议。
Apr, 2020
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
自 20 世纪 50 年代以来,机器翻译 (MT) 已成为人工智能和开发的重要任务之一,并经历了几个不同阶段的发展,随着这些发展,评估方法在统计翻译和神经翻译研究中扮演着重要角色,该报告概述了评估方法的发展历程、研究方法分类和最新进展,并包括参考翻译的手动评估和自动评估方法。
Feb, 2022
该论文旨在讨论机器翻译是如何被应用的,如何评估其输出,以及如何提高机器翻译的质量,特别是作为人类翻译的生产力增强工具,其中需要考虑翻译本身的预期生命周期以及质量评估等问题。
Mar, 2018
本文研究了使用平行语料库来估计由数据驱动机器翻译系统产生的翻译质量,并展示了该简单直接的方法对机器翻译系统的翻译质量估计具有潜在的应用价值。
Jun, 2023
本文评估了机器翻译 (MT) 模型从隐含信号中学习共指消解的能力,并探究了如何将共指消解模型的输出整合到 MT 模型中以提高翻译质量。研究结果表明,单语共指消解模型的性能远远优于 MT 模型。
Feb, 2023
机器翻译评估已被传统上视为回归问题,但这种方法存在两个限制:缺乏可解释性且人工评注者难以给出一致的分数;在真实的场景中,大多数评分方法基于(参考翻译)对,限制了它们的适用性。本研究提出一种新的评估方法,将无参考机器翻译评估转化为配对排序问题,并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker 在无人工注释的情况下,在 DARR20、MQM20、MQM21 等 WMT Shared Metrics Task 基准测试上取得了最先进的结果,在包含细粒度评估标准的更有挑战的基准测试 ACES 上,MT-Ranker 在无参考和参考基准线上表现出最先进的水平。
Jan, 2024
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024