使用双向蕴涵的机器翻译评估
神经机器翻译在近年来取得了快速的进展,我们提出了一种双向语义评估方法,通过计算源文本与翻译的语义距离,实现了在同一语言层面上的句子比较,该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性,同时提出了一种新的多语言方法来对 MT 系统进行排序,无需平行语料库。
Mar, 2024
提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架,能够对 WMT 的翻译结果进行质量评估,并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。
Jul, 2018
使用神经网络在配对设置下进行机器翻译评估的框架,以从一对假设中选择更好的翻译为目标。该框架将参考和两个假设的词汇、句法和语义信息嵌入到紧凑的分布式向量表示中,并提供了一个与人类判断相关的 MT 评估度量。
Oct, 2017
本文使用 BERT 对机器翻译进行度量,实验结果表明我们的度量指标在 WMT-2017 数据集的所有英翻中文语言对中的分段级度量任务中均取得了最先进的性能。
Jul, 2019
使用序列到序列的释义器作为人类参考的评估工具,将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务,将释义器训练为多语言 NMT 系统,并将其应用于质量估计任务中,以条件化源,而不是参考,发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。
Apr, 2020
本文介绍了一种基于多词表达式的人机协作评估度量方法,旨在评估机器翻译系统中多词表达式的准确性和语义等价性,以此作为评估机器翻译系统的指标。
Nov, 2022
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
机器翻译的评估方法主要关注流畅度和事实可靠性,而对比喻质量关注较少。本文研究机器翻译的比喻质量,并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库,并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察,我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。
Jun, 2024
本研究提出了一种基于注意力机制的神经机器翻译(NMT)模型,并允许它在训练后访问整个平行句子对训练集。该模型由两个阶段组成:检索阶段和翻译阶段,实现了在源句子和一组检索的平行句子对之间的平滑翻译。在三种语言(En-Fr,En-De 和 En-Es)上的实证评估表明,该方法显著优于基准方法,并且当检索到更相关的平行句子对时,改进效果更为显著。
May, 2017