关于文本生成模型基于评估指标的盲点

Dec, 2022

关于文本生成模型基于评估指标的盲点

On the Blind Spots of Model-Based Evaluation Metrics for Text Generation

Tianxing He, Jingyu Zhang, Tianle Wang, Sachin Kumar, Kyunghyun Cho...

TL;DR本文探讨了一种有用但经常被忽视的强健性分析方法，即使用合成数据进行压力测试。我们检查了基于预训练语言模型的一系列最近提出的生成、翻译和摘要任务的评估度量标准，并揭示了现有度量标准中的一些盲点和不足。我们找到了一些度量标准的不敏感性、偏见甚至漏洞，并对这些盲点的原因进行了调查，并提出了更可靠的文本生成评估的实用解决方案。

Abstract

In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress te

robustness analysis text generation evaluation metrics synthetic data evaluation metrics pretrained language models

发现论文，激发创造

语言生成模型对合成流量生成任务的评估度量

本文提出并评估了几种用于比较生成的流量与真实用户文本分布的度量标准，证明了常见的自然语言生成度量指标对于评估合成流量生成任务不适用。通过在三个任务上的实验验证，即购物话语生成、产品问题生成和查询自动完成，我们得出结论：我们的度量标准对于评估合成流量生成任务是有效的，且与人工判断的一致性相比普通的自然语言生成度量指标提高了 20%。我们相信这些研究结果可以为更好地估计合成文本数据的代表性提供解决方案。

Nov, 2023

自动度量文本生成系统有效性研究

本篇论文提出了一种新的理论方法，用以评估文本生成模型的可靠性与鲁棒性，并在 WMT 21 和 Spot-The-Bot 数据上进行了应用与验证，并实现了对样本量的有效估算。

Oct, 2022

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

在文本生成模型中联合测量多样性和质量

本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Apr, 2019

LLM 作为自恋评估者：当自我膨胀影响评分

本研究探讨了自然语言处理领域中生成文本内容的自动评估问题，特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差，并揭示出在无参考摘要的情况下，这种评估指标可能受到潜在偏见的影响，强调未来需要开发更可靠的评估协议。

Nov, 2023

机器生成文本检测器在攻击下的鲁棒性压力测试

通过对大规模语言模型、机器生成文本检测器、恶意攻击、鲁棒性和缺陷进行全面研究，我们揭示了现有检测器在不同攻击形式下的脆弱性，并提出了初步的解决方案，以提高其鲁棒性。

Feb, 2024

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

自动度量文本生成偏好评级中的错误校正

本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。

Jun, 2023

自动机器翻译度量指标的鲁棒性测试与对抗攻击

我们研究了对抗性合成文本上的机器翻译评估指标的性能，以阐明指标的稳健性。我们对三个流行的机器翻译指标（BERTScore、BLEURT 和 COMET）进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译。我们还发现了 BERTScore 评级的不一致性，在判断原始句子和对抗性降级句子相似的同时，将降级翻译与参考文献相比较，判断其比原始句子明显更差。我们确定了一些脆弱性模式，从而推动更稳健的指标开发。

Nov, 2023

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020