双语专家” 能够找出翻译错误
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024
本文探讨了以往机器翻译的词汇质量评估模型的局限性,并提出了基于强大的预训练 Transformer 模型的跨语言通用性的词汇质量评估模型,证明其在跨语言模型训练、零样本 / 少样本数据归集的情况下,很好地泛化了,并且在实际应用中具有更广泛的应用前景。
May, 2021
该论文旨在通过自监督的预训练方法以及标记修正策略,提高机器翻译的质量估计,避免传统质量评价准则的局限性,并通过人类专家的直接评注来构建不需要参考文献的数据集 HJQE 的实验结果证实了我们的方法的有效性。
Sep, 2022
本文提出了一种基于双向蕴含的机器翻译评估新指标,利用深度学习实现候选和参考翻译之间的语义相似度评分,应用于 WMT'14 和 WMT'17 数据集,与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。
Nov, 2019
本文介绍了一种基于跨语言 transformer 的简单句子级质量估计框架,实现了两种不同的神经网络架构,并表明当在 WMT 数据集上训练时,这些方法能够超越当前开源的质量估计框架,尤其在面对低资源语言时能够获得竞争性的结果
Nov, 2020
神经机器翻译在近年来取得了快速的进展,我们提出了一种双向语义评估方法,通过计算源文本与翻译的语义距离,实现了在同一语言层面上的句子比较,该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性,同时提出了一种新的多语言方法来对 MT 系统进行排序,无需平行语料库。
Mar, 2024
本文介绍了一种利用语义嵌入进行往返翻译的质量估计技术,相较于以往的 WMT 2019 质量估计任务提交的方法,我们的方法与人类判断之间的相关性最高,且在往返翻译选择上表现鲁棒性较佳。此外,该方法能够针对 SMT 和 NMT 等多种类型的前向翻译模型进行一致的性能表现。
Apr, 2020
提出了一种无监督方法来进行机器翻译的质量估计,该方法不需要大量专家注释数据、计算和时间来训练。该方法通过从机器翻译系统中提取有用的信息,并采用不确定性量化方法,实现了与人类判断质量的很好相关性,与最先进的监督质量估计模型相媲美。同时,他们还收集了第一个数据集,使得可以进行黑盒和白盒方法的质量估计的工作。
May, 2020
该论文提出了一种对机器翻译中的质量评估进行敌对测试的方法,通过研究近期最优设备的评价体系,发现某些含有意义错误的翻译结果是难以被评估系统检测的。同时,该论文还研究了翻译结果保留原本含义和改变原本含义两种扰动的区别,并探讨了这种方法对于评估系统的多个领域可能产生的影响以及评估结果可行性的可比性。
Sep, 2021
该研究评估了超参数设置对基于 Transformer 的神经机器翻译在英语 - 爱尔兰语低资源对中的质量的影响。研究中使用了基于 Byte Pair Encoding (BPE) 和 unigram 方法的 SentencePiece 模型。通过修改层数、评估注意力机制中最佳头数、使用不同的正则化技术等变体,发现使用 16k BPE 子词模型优化的 Transformer 模型表现最佳,相较于基线递归神经网络(RNN)模型,BLEU 分数提高了 7.8 个点,与 Google 翻译相比,该翻译引擎实现了显著提升。此外,还通过定量细粒度手动评估,比较了机器翻译系统的表现。使用多维质量度量中的错误分类法(MQM error taxonomy),探讨了基于 RNN 模型和 Transformer 模型生成的错误类型的人类评估。结果表明,表现最佳的 Transformer 系统在准确性和流畅性错误方面与基于 RNN 的模型相比均有显著降低。
Mar, 2024