BLEU 不适合于文本简化的评估

EMNLPOct, 2018

BLEU is Not Suitable for the Evaluation of Text Simplification

Elior Sulem, Omri Abend, Ari Rappoport

TL;DR本文表明，BLEU 评估指标并不适合评估句子分裂等结构方面的文本简化操作，并展示了 BLEU 评分与语法性和保留意义参数之间的低或无关性，并且，BLEU 评分通常与简洁性呈负相关，实质上惩罚了简单的句子。

Abstract

bleu is widely considered to be an informative metric for text-to-text generation, including text simplification (TS). TS includes both lexical and structural aspects. In this paper we show that →

bleu text simplification sentence splitting correlation analysis grammaticality

发现论文，激发创造

文本简化系统的无参考质量评估

本文探讨了针对在无参考文本的情况下，对简化文本进行质量估计的多种方法，并基于 QATS 2016 的数据集对多个方法进行了比较，最终发现基于 n-gram 的机器翻译度量（如 BLEU 和 METEOR）最能与语法正确性和意义保留的人工评估相匹配，而基于长度的度量方法则最适合衡量简明易懂程度。

Jan, 2019

CodeBLEU: 一种自动评估代码合成的方法

本研究提出 CodeBLEU 作为一种新的自动代码评估指标，它可通过 n-gram 匹配吸收 BLEU 的优点，并通过抽象语法树和数据流注入代码语法和语义，实现对三种代码合成任务的质量评估，结果表明，与 BLEU 和准确性相比，我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。

Sep, 2020

报告 BLEU 分数需要更清晰明确的呼吁

机器翻译衡量指标 BLEU 存在参数化问题，可采用 WMT 会议上的 BLEU 方案，同时提供新工具 SacreBLEU 以避免标准化及标记化不一致问题。

Apr, 2018

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

增强的双语评估助手

本研究通过在 Bilingual Evaluation Understudy（BLEU）评估技术上进行改进，提出了一种适应人类评估的评估技术，该技术可以考虑包括同义词和词序在内的变化，并且与现有的评估方法相比，有较好的改进和相关性。

Sep, 2015

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

朝向神经语言评估器

该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Sep, 2019

文本风格转移：重新训练、汇报错误、与重写比较

本文针对样式转移的标准评估方法提出了几个问题，为了解决这些问题，我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试，并提出了三种优于现有技术的新体系结构。

Aug, 2019

BlonDe：一种用于文档级机器翻译的自动评估指标

本文提出了一种新型的自动评估方法 BlonDe，通过将话语连贯性考虑在内来扩大自动翻译评估的范围，从句子级别提高到文档级别，该方法能够更好地区分文档级别的翻译质量改进和句子级别的改进，并且具有更好的判别性、可解释性和敏感性。在大规模的人类研究中，BlonDe 也成功地取得了比前期评估指标更高的 Pearson r 相关度。

Mar, 2021