本文研究采用人工生成的同义词组进行翻译评估,结果表明使用同义词组可以更好地反映人类判断,同时使用同义词组进行系统开发可以产生显著的提高。
Oct, 2020
通过模拟多重参考训练(SMRT)来近似表示可能的翻译,从而训练机器翻译(MT)模型,以缓解低资源环境下数据稀疏问题,并在翻译为英语时实现了 1.2 到 7.0 BLEU 的提高(机器翻译评价指标)。研究还发现 SMRT 和回译相互补充。
Apr, 2020
通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
本文提出一种引用网络的神经机器翻译方法,利用局部坐标编码技术构建全局上下文向量以表示翻译历史,实现在轻量级计算代价下,有效提高翻译质量。
Aug, 2019
提出了一种将现有的全句子语料库改写为同时翻译风格的新方法,用生成的伪参考文本增强机器翻译系统,在中英文和日英文同时翻译任务中获得高达 2.7 BLEU 的显著改善。
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
N-gram 匹配评估指标,如 BLEU 和 chrF,在各种自然语言生成(NLG)任务中被广泛使用。然而,最近的研究发现,这些基于匹配的指标与人类评估之间存在较弱的相关性,尤其与 BLEURT 等基于神经网络的指标相比。在本文中,我们假设匹配指标的性能瓶颈可能是由于参考文献的多样性有限所致。为了解决这个问题,我们提出利用多个参考文献来增强这些指标与人类评估之间的一致性。在 WMT Metrics 基准测试中,我们观察到多参考文献的 F200spBLEU 比传统的单参考文献提高了 7.2%的准确度,而且它还超过了基于神经网络的 BERTscore 3.9%的准确度提升。此外,我们观察到大型语言模型(LLMs)中的数据泄漏问题在很大程度上可以通过我们的多参考文献指标得到缓解。我们在 https://github.com/SefaZeng/LLM-Ref 上发布了代码和数据。
Aug, 2023
本文介绍一种利用神经网络在成对翻译评估中选出最佳翻译的新方法,该方法基于单词和句子嵌入形成紧凑的分布式向量表示,并利用多层神经网络对参考文本和两个翻译之间的交互进行建模,从而可以高效地学习和分类,且与人类评估结果的相关性不亚于当前技术水平的最高水平。
Dec, 2019
使用神经网络在配对设置下进行机器翻译评估的框架,以从一对假设中选择更好的翻译为目标。该框架将参考和两个假设的词汇、句法和语义信息嵌入到紧凑的分布式向量表示中,并提供了一个与人类判断相关的 MT 评估度量。
Oct, 2017
本研究通过比较不同收集参考文献的方法,找到了提高机器翻译自动测量与人工评估相关性的关键。同时,提出了基于语言学家的改写任务,解决了传统参考文献的单调性问题,它不仅能够提高 WMT 2019 英德翻译的相关性,而且对于后翻译和 APE 增强的 MT 输出,同样具有良好的表现。