基于知识的机器翻译评估

EMNLPSep, 2020

KoBE: Knowledge-Based Machine Translation Evaluation

Zorik Gekhman, Roee Aharoni, Genady Beryozkin, Markus Freitag, Wolfgang Macherey

TL;DR提出了一种基于实体 grounding 以及实体回忆率来进行机器翻译评估的方法，无需参考翻译，并在多项测试中取得了高度的人类相关性表现，并通过数据集共享促进进一步研究。

Abstract

We propose a simple and effective method for machine translation evaluation which does not require reference translations. Our approach is based on (1) →

machine translation evaluation grounding multilingual knowledge base recall

发现论文，激发创造

KG-BERTScore：将知识图谱融入 BERTScore 用于无参考机器翻译评价

本文研究了机器翻译自动评估方法，并将多语言知识图谱融入 BERTScore 之中，提出了一种名为 KG-BERTScore 的评估指标，通过线性组合 BERTScore 和双语命名实体匹配的结果来评估无需参考译文的机器翻译质量，并在实验中证明 KG-BERTScore 相比当前无参考机器翻译评价方法更接近于人工评估结果。同时，本文还探究了 KG-BERTScore 所用到的预训练多语言模型和线性组合参数。

Jan, 2023

使用双向蕴涵的机器翻译评估

本文提出了一种基于双向蕴含的机器翻译评估新指标，利用深度学习实现候选和参考翻译之间的语义相似度评分，应用于 WMT'14 和 WMT'17 数据集，与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。

Nov, 2019

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

神经网络进行机器翻译评估

使用神经网络在配对设置下进行机器翻译评估的框架，以从一对假设中选择更好的翻译为目标。该框架将参考和两个假设的词汇、句法和语义信息嵌入到紧凑的分布式向量表示中，并提供了一个与人类判断相关的 MT 评估度量。

Oct, 2017

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

搜索引擎引导的非参数神经机器翻译

本研究提出了一种基于注意力机制的神经机器翻译（NMT）模型，并允许它在训练后访问整个平行句子对训练集。该模型由两个阶段组成：检索阶段和翻译阶段，实现了在源句子和一组检索的平行句子对之间的平滑翻译。在三种语言（En-Fr，En-De 和 En-Es）上的实证评估表明，该方法显著优于基准方法，并且当检索到更相关的平行句子对时，改进效果更为显著。

May, 2017

BiVert: 双向词汇评估机器翻译关系

神经机器翻译在近年来取得了快速的进展，我们提出了一种双向语义评估方法，通过计算源文本与翻译的语义距离，实现了在同一语言层面上的句子比较，该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性，同时提出了一种新的多语言方法来对 MT 系统进行排序，无需平行语料库。

Mar, 2024

通过零样式改写实现多语言自动机器翻译评估

使用序列到序列的释义器作为人类参考的评估工具，将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务，将释义器训练为多语言 NMT 系统，并将其应用于质量估计任务中，以条件化源，而不是参考，发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。

Apr, 2020