人工改写的参考文献改善神经机器翻译

Oct, 2020

人工改写的参考文献改善神经机器翻译

Human-Paraphrased References Improve Neural Machine Translation

Markus Freitag, George Foster, David Grangier, Colin Cherry

TL;DR本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Abstract

automatic evaluation comparing candidate translations to human-generated paraphrases of reference translations has recently been proposed by Freitag et al. When used in place of original references, the paraphras

automatic evaluation paraphrases metric scores end-to-end system development human judgment

发现论文，激发创造

提高 BLEU 参考覆盖率的多样化自动释义研究

通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性，探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性，实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现，但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现，一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。

Apr, 2020

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

通过零样式改写实现多语言自动机器翻译评估

使用序列到序列的释义器作为人类参考的评估工具，将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务，将释义器训练为多语言 NMT 系统，并将其应用于质量估计任务中，以条件化源，而不是参考，发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。

Apr, 2020

不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术

本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。

May, 2023

机器翻译自动评估指标中参考翻译的质量和数量

自动机器翻译度量通常使用人工翻译来确定质量系统翻译，然而在这篇论文中我们发现，高质量的参考翻译可以提高度量与人类之间的相关性，并通过对多个参考翻译取平均值来改善所有度量的效果，这些发现可用于共享任务的评估者在特定预算下创建参考翻译以最大化度量的成功。

Jan, 2024

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

神经翻译和文本生成的多参考训练与伪参考

利用多个参考文献训练神经文本生成模型的方法对机器翻译和图像字幕生成任务产生了显著的改进，其中一种算法先将现有的参考文献压缩成格点再遍历来生成伪参考文献。

Aug, 2018

马拉雅拉姆语改写生成的神经机器翻译

该研究探讨了四种生成马拉雅拉姆语释义的方法，利用了英语释义和预训练的神经机器翻译模型的资源。我们使用自动化评估指标（如 BLEU、METEOR 和余弦相似度）和人工标注来评估生成的释义。我们的发现表明，自动化评估指标可能不完全适用于马拉雅拉姆语，因为它们与人的判断不一致。这种差异凸显了对高度聚集语言特别是马拉雅拉姆语更细致的释义评估方法的需求。

Jan, 2024

多语言神经机器翻译中使用外语重述

本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义，并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果，并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数，增加了词汇选择的熵和多样性。

Aug, 2018

评估人机语言翻译平衡性的建议

研究发现 2018 年 Hassan 等人的评估设计有问题，导致其认为人工翻译和机器翻译有同等水平的结论不准确，因此需要重新审视现有的评估方法，并且提出了一系列改进建议。

Apr, 2020