增强的双语评估助手
使用反向翻译作为数据增广技术可以提高自然文本和翻译文本的翻译质量,并且人类翻译者更喜欢反向翻译的产物,因为它们更加流畅,建议使用语言模型得分来衡量流畅度。
Aug, 2019
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强,实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果,并展示了其在 2020 年版中的潜力。
Oct, 2020
提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架,能够对 WMT 的翻译结果进行质量评估,并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。
Jul, 2018
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
本研究提出 CodeBLEU 作为一种新的自动代码评估指标,它可通过 n-gram 匹配吸收 BLEU 的优点,并通过抽象语法树和数据流注入代码语法和语义,实现对三种代码合成任务的质量评估,结果表明,与 BLEU 和准确性相比,我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。
Sep, 2020
本文提出了一种基于双向蕴含的机器翻译评估新指标,利用深度学习实现候选和参考翻译之间的语义相似度评分,应用于 WMT'14 和 WMT'17 数据集,与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。
Nov, 2019
机器翻译衡量指标 BLEU 存在参数化问题,可采用 WMT 会议上的 BLEU 方案,同时提供新工具 SacreBLEU 以避免标准化及标记化不一致问题。
Apr, 2018
神经机器翻译在近年来取得了快速的进展,我们提出了一种双向语义评估方法,通过计算源文本与翻译的语义距离,实现了在同一语言层面上的句子比较,该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性,同时提出了一种新的多语言方法来对 MT 系统进行排序,无需平行语料库。
Mar, 2024
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020