不是所有的错误都是相等的：使用分层错误合成学习文本生成度量

EMNLPOct, 2022

不是所有的错误都是相等的：使用分层错误合成学习文本生成度量

Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis

Wenda Xu, Yilin Tuan, Yujie Lu, Michael Saxon, Lei Li...

TL;DR本文提出利用迭代的错误合成与强度评分的新颖流程构建高度相关于人类判断的基于模型的指标 SESCORE，该指标无需人工注释，在多个不同的自然语言生成任务中优于所有现有的无监督指标，并且即使没有获得任何人工标注训练数据，SESCORE 也实现了与最佳监督指标 COMET 相当的性能。

Abstract

Is it possible to build a general and automatic natural language generation (NLG) evaluation metric? Existing learned metrics either perform unsatisfactorily or are restricted to tasks where large human rating da

natural language generation evaluation metric sescore unsupervised metrics nlg tasks

发现论文，激发创造

自然语言生成的人类似评估及其误差分析

该论文介绍了一种基于 BARTScore 的人工智能评估方法，通过自动化错误分析以达到更接近人类的漏洞检测，实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。

Dec, 2022

INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。

May, 2023

重温语法错误修正的元评估

本文提出了 SEEDA，这是一个用于语法错误修正的新数据集，包含了 12 个最先进的系统和两个不同焦点的人工纠错评估，通过在句子级别元评估中对齐粒度来改进相关性，并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。

Mar, 2024

根据内容评估句子以生成语法错误

本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Aug, 2022

语言生成模型对合成流量生成任务的评估度量

本文提出并评估了几种用于比较生成的流量与真实用户文本分布的度量标准，证明了常见的自然语言生成度量指标对于评估合成流量生成任务不适用。通过在三个任务上的实验验证，即购物话语生成、产品问题生成和查询自动完成，我们得出结论：我们的度量标准对于评估合成流量生成任务是有效的，且与人工判断的一致性相比普通的自然语言生成度量指标提高了 20%。我们相信这些研究结果可以为更好地估计合成文本数据的代表性提供解决方案。

Nov, 2023

谁写的？零样本长文本生成文本检测的关键是 GECScore

提出一种基于语法错误修正分数（GECScore）计算的黑盒零样本检测方法，通过区分人工编写和大型语言模型生成的文本，在零样本和有监督方法方面显著优于现有技术，获得平均 AUROC 为 98.7％的结果，并对近义词和对抗扰动攻击具有很强的鲁棒性。

May, 2024

关于文本生成模型基于评估指标的盲点

本文探讨了一种有用但经常被忽视的强健性分析方法，即使用合成数据进行压力测试。我们检查了基于预训练语言模型的一系列最近提出的生成、翻译和摘要任务的评估度量标准，并揭示了现有度量标准中的一些盲点和不足。我们找到了一些度量标准的不敏感性、偏见甚至漏洞，并对这些盲点的原因进行了调查，并提出了更可靠的文本生成评估的实用解决方案。

Dec, 2022

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

MoverScore: 文本生成的上下文嵌入和地球移动距离评估

本文研究评估文本生成系统的评价指标，提出了基于语义而非形式的指标 MoverScore，并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现，该指标具有较强的泛化能力，并已提供 Web 服务方便使用。

Sep, 2019

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023