英乌机器翻译的主客观评估

MMOct, 2013

Subjective and Objective Evaluation of English to Urdu Machine Translation

Vaishali Gupta, Nisheeth Joshi, Iti Mathur

TL;DR本篇研究评估了使用不同机器翻译系统（如 Google，Babylon 和 Ijunoon）翻译的乌尔都语的翻译质量，采用人工评估和自动评估两种不同的方法进行评估，并比较了不同自动指标（如 BLEU，GTM，METEOR 和 ATEC）的效果。

Abstract

machine translation is research based area where evaluation is very important phenomenon for checking the quality of MT output. The work is based on the →

machine translation evaluation urdu human evaluation automatic evaluation

发现论文，激发创造

机器翻译评估概述

自 20 世纪 50 年代以来，机器翻译 (MT) 已成为人工智能和开发的重要任务之一，并经历了几个不同阶段的发展，随着这些发展，评估方法在统计翻译和神经翻译研究中扮演着重要角色，该报告概述了评估方法的发展历程、研究方法分类和最新进展，并包括参考翻译的手动评估和自动评估方法。

Feb, 2022

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

机器翻译研究的科学可信度：769 篇论文的元评估

本文是机器翻译评估的第一篇大规模元评估，发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估，并提出了一个简单的元评估评分方法来评估其可靠性。

Jun, 2021

困难感知机器翻译评估

提出一种考虑翻译难度的机器翻译评估方法，结果显示在 WMT19 上表现出色。

Jul, 2021

BLEU 的黑箱：重新评估自动机器翻译评估指标

研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Jun, 2020

机器翻译系统的定量细致人类评估：以英语到克罗地亚语为例的案例研究

本文提出了一种基于多维质量度量（Multidimensional Quality Metrics，MQM）误差分类的手动评估方法，以评估不同机器翻译系统之间的性能差异是否显著，针对英语到克罗地亚语这一翻译方向，比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统，发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。

Feb, 2018

基于测试套件的德英机器翻译的细粒度评估

本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Oct, 2019

在线学习与机器翻译评估：以最少的人力努力找到最佳系统

基于在线学习的机器翻译自动化指标优化方法，通过对多个语言对进行评估，快速收敛于表现最佳的前三个系统。

May, 2021

评估汉英情感微博文本机器翻译：一份用于情感翻译质量评估的人工标注数据集

本文关注机器翻译对情感文本的翻译表现，并通过提出的基于多维质量度量的评估框架，对谷歌翻译的输出进行评估。作者发现大约 50% 的机器翻译输出没有保留原始情感，并认为情感承载词和语言现象是这些翻译错误的常见原因。

Jun, 2023

不确定性感知的机器翻译评估

本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法，并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法，得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验，验证了该方法的性能，进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。

Sep, 2021