使用双向蕴涵的机器翻译评估

Nov, 2019

Machine Translation Evaluation using Bi-directional Entailment

Rakesh Khobragade, Heaven Patel, Anand Namdev, Anish Mishra, Pushpak Bhattacharyya

TL;DR本文提出了一种基于双向蕴含的机器翻译评估新指标，利用深度学习实现候选和参考翻译之间的语义相似度评分，应用于 WMT'14 和 WMT'17 数据集，与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。

Abstract

In this paper, we propose a new metric for machine translation (MT) evaluation, based on bi-directional entailment. We show that machine generated translation can be evaluated by determining →

machine translation bi-directional entailment paraphrasing deep learning natural language inference

发现论文，激发创造

BiVert: 双向词汇评估机器翻译关系

神经机器翻译在近年来取得了快速的进展，我们提出了一种双向语义评估方法，通过计算源文本与翻译的语义距离，实现了在同一语言层面上的句子比较，该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性，同时提出了一种新的多语言方法来对 MT 系统进行排序，无需平行语料库。

Mar, 2024

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

神经网络进行机器翻译评估

使用神经网络在配对设置下进行机器翻译评估的框架，以从一对假设中选择更好的翻译为目标。该框架将参考和两个假设的词汇、句法和语义信息嵌入到紧凑的分布式向量表示中，并提供了一个与人类判断相关的 MT 评估度量。

Oct, 2017

BERT 回归器用于机器翻译评估

本文使用 BERT 对机器翻译进行度量，实验结果表明我们的度量指标在 WMT-2017 数据集的所有英翻中文语言对中的分段级度量任务中均取得了最先进的性能。

Jul, 2019

跨语言编码器的局限性：基于无参考机器翻译评估的揭示

研究跨语言编码器在自然对抗机器翻译系统中的参照无机器翻译评估问题，找到该方法的两个关键限制并提出两种部分解决方案。

May, 2020

通过零样式改写实现多语言自动机器翻译评估

使用序列到序列的释义器作为人类参考的评估工具，将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务，将释义器训练为多语言 NMT 系统，并将其应用于质量估计任务中，以条件化源，而不是参考，发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。

Apr, 2020

HilMeMe: 一种基于人机交互的机器翻译准确度度量方法，关注多词表达

本文介绍了一种基于多词表达式的人机协作评估度量方法，旨在评估机器翻译系统中多词表达式的准确性和语义等价性，以此作为评估机器翻译系统的指标。

Nov, 2022

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

MMTE：评估隐喻语言机器翻译质量的语料库和度量

机器翻译的评估方法主要关注流畅度和事实可靠性，而对比喻质量关注较少。本文研究机器翻译的比喻质量，并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库，并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察，我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。

Jun, 2024

搜索引擎引导的非参数神经机器翻译

本研究提出了一种基于注意力机制的神经机器翻译（NMT）模型，并允许它在训练后访问整个平行句子对训练集。该模型由两个阶段组成：检索阶段和翻译阶段，实现了在源句子和一组检索的平行句子对之间的平滑翻译。在三种语言（En-Fr，En-De 和 En-Es）上的实证评估表明，该方法显著优于基准方法，并且当检索到更相关的平行句子对时，改进效果更为显著。

May, 2017