增强的双语评估助手

Sep, 2015

Enhanced Bilingual Evaluation Understudy

Krzysztof Wołk, Krzysztof Marasek

TL;DR本研究通过在 Bilingual Evaluation Understudy（BLEU）评估技术上进行改进，提出了一种适应人类评估的评估技术，该技术可以考虑包括同义词和词序在内的变化，并且与现有的评估方法相比，有较好的改进和相关性。

Abstract

Our research extends the bilingual evaluation understudy (BLEU) evaluation technique for statistical machine translation to make it more adjustable and robust. We intend to adapt it to resemble →

bilingual evaluation understudy statistical machine translation human evaluation synonyms word order

发现论文，激发创造

关于使用回译训练的机器翻译系统的评估

使用反向翻译作为数据增广技术可以提高自然文本和翻译文本的翻译质量，并且人类翻译者更喜欢反向翻译的产物，因为它们更加流畅，建议使用语言模型得分来衡量流畅度。

Aug, 2019

学习评估英语之外的翻译：BLEURT 参加 WMT 评估 2020 共享任务

本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献，通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对，针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强，实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果，并展示了其在 2020 年版中的潜力。

Oct, 2020

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

CodeBLEU: 一种自动评估代码合成的方法

本研究提出 CodeBLEU 作为一种新的自动代码评估指标，它可通过 n-gram 匹配吸收 BLEU 的优点，并通过抽象语法树和数据流注入代码语法和语义，实现对三种代码合成任务的质量评估，结果表明，与 BLEU 和准确性相比，我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。

Sep, 2020

使用双向蕴涵的机器翻译评估

本文提出了一种基于双向蕴含的机器翻译评估新指标，利用深度学习实现候选和参考翻译之间的语义相似度评分，应用于 WMT'14 和 WMT'17 数据集，与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。

Nov, 2019

报告 BLEU 分数需要更清晰明确的呼吁

机器翻译衡量指标 BLEU 存在参数化问题，可采用 WMT 会议上的 BLEU 方案，同时提供新工具 SacreBLEU 以避免标准化及标记化不一致问题。

Apr, 2018

BiVert: 双向词汇评估机器翻译关系

神经机器翻译在近年来取得了快速的进展，我们提出了一种双向语义评估方法，通过计算源文本与翻译的语义距离，实现了在同一语言层面上的句子比较，该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性，同时提出了一种新的多语言方法来对 MT 系统进行排序，无需平行语料库。

Mar, 2024

机器翻译研究的科学可信度：769 篇论文的元评估

本文是机器翻译评估的第一篇大规模元评估，发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估，并提出了一个简单的元评估评分方法来评估其可靠性。

Jun, 2021

BLEU 的黑箱：重新评估自动机器翻译评估指标

研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Jun, 2020