BLEURT: 学习文本生成的鲁棒度量

ACLApr, 2020

BLEURT: Learning Robust Metrics for Text Generation

Thibault Sellam, Dipanjan Das, Ankur P. Parikh

TL;DR提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Abstract

text generation has made significant advances in the last few years. Yet, evaluation metrics have lagged behind, as the most popular choices (e.g., BLEU and ROUGE) may correlate poorly with human judgments. We pr

text generation evaluation metrics bleurt bert pre-training scheme

发现论文，激发创造

WMT2021 度量任务中 RoBLEURT 的提交

本文介绍我们对 RoBLEURT（Robustly Optimizing the training of BLEURT）分享指标任务的提交，并通过联合利用源自模型和仅参考模型优势、大量合成数据对模型进行持续预训练和使用数据去噪策略进行微调等关键操作，实现了在 8 个中英翻译语言对上达到 WMT2020 人类注释技术最高相关性的模型。

Apr, 2022

学习评估英语之外的翻译：BLEURT 参加 WMT 评估 2020 共享任务

本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献，通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对，针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强，实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果，并展示了其在 2020 年版中的潜力。

Oct, 2020

BLEURT 具有通用翻译能力：最小风险训练下自动度量分析

自动评估指标在机器翻译中起着关键作用，研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷，并提出通过引入基于标记的约束来增强评估指标的鲁棒性。

Jul, 2023

学习指标的神经机器翻译奖励优化

研究探讨了基于模型衡量 BLEURT 度量标准是否有益于优化 NMT 并提出了一种基于对比分裂损失的奖励优化方法，结果显示 BLEURT 的奖励优化能够较大幅度提高度量分数，并且人类评估结果显示使用 BLEURT 训练的模型提高了翻译的充分性和覆盖性。

Apr, 2021

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

为机器翻译学习紧凑的度量

使用 RemBERT 模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高 10.5％，并仅使用 RemBERT 的三分之一的参数即可达到 92.6％的性能。

Oct, 2021

朝向神经语言评估器

该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Sep, 2019

通过将语言要素分解来解释基于 BERT 的评估度量的全球可解释性

本文研究了基于 BERT 的评估指标在文本生成上的效果。通过使用一种简单的回归全局可解释性技术，将指标分解成了语言要素，包括语义、句法、形态和词汇重叠。研究表明，不同的评估指标在一定程度上对所有方面都有所捕捉，但它们都非常敏感于词汇重叠，正如 BLEU 和 ROUGE 所做的那样。这揭示了这些新提出的指标的限制，在敌对测试场景下也得到了证实。

Oct, 2021

自动机器翻译度量指标的鲁棒性测试与对抗攻击

我们研究了对抗性合成文本上的机器翻译评估指标的性能，以阐明指标的稳健性。我们对三个流行的机器翻译指标（BERTScore、BLEURT 和 COMET）进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译。我们还发现了 BERTScore 评级的不一致性，在判断原始句子和对抗性降级句子相似的同时，将降级翻译与参考文献相比较，判断其比原始句子明显更差。我们确定了一些脆弱性模式，从而推动更稳健的指标开发。

Nov, 2023

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023