人工改写的参考文献改善神经机器翻译
通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
Apr, 2020
本研究通过比较不同收集参考文献的方法,找到了提高机器翻译自动测量与人工评估相关性的关键。同时,提出了基于语言学家的改写任务,解决了传统参考文献的单调性问题,它不仅能够提高 WMT 2019 英德翻译的相关性,而且对于后翻译和 APE 增强的 MT 输出,同样具有良好的表现。
Apr, 2020
使用序列到序列的释义器作为人类参考的评估工具,将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务,将释义器训练为多语言 NMT 系统,并将其应用于质量估计任务中,以条件化源,而不是参考,发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。
Apr, 2020
本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。
May, 2023
自动机器翻译度量通常使用人工翻译来确定质量系统翻译,然而在这篇论文中我们发现,高质量的参考翻译可以提高度量与人类之间的相关性,并通过对多个参考翻译取平均值来改善所有度量的效果,这些发现可用于共享任务的评估者在特定预算下创建参考翻译以最大化度量的成功。
Jan, 2024
本文重新审视了用于复述评估的自动评估度量,并得出两个违背常规智慧的发现:(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。 基于实验和分析,我们提出了 ParaScore,这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点,并明确地建模词汇差异。实验结果证明,ParaScore 显着优于现有的指标。
Feb, 2022
利用多个参考文献训练神经文本生成模型的方法对机器翻译和图像字幕生成任务产生了显著的改进,其中一种算法先将现有的参考文献压缩成格点再遍历来生成伪参考文献。
Aug, 2018
该研究探讨了四种生成马拉雅拉姆语释义的方法,利用了英语释义和预训练的神经机器翻译模型的资源。我们使用自动化评估指标(如 BLEU、METEOR 和余弦相似度)和人工标注来评估生成的释义。我们的发现表明,自动化评估指标可能不完全适用于马拉雅拉姆语,因为它们与人的判断不一致。这种差异凸显了对高度聚集语言特别是马拉雅拉姆语更细致的释义评估方法的需求。
Jan, 2024
本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义,并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果,并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数,增加了词汇选择的熵和多样性。
Aug, 2018
研究发现 2018 年 Hassan 等人的评估设计有问题,导致其认为人工翻译和机器翻译有同等水平的结论不准确,因此需要重新审视现有的评估方法,并且提出了一系列改进建议。
Apr, 2020