INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

May, 2023

INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with Automatic Feedback

Wenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag...

TL;DR该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。

Abstract

The field of automatic evaluation of text generation made tremendous progress in the last few years. In particular, since the advent of neural me

automatic evaluation neural metrics text generation instructscore explainable

发现论文，激发创造

TIGERScore：建立可解释的度量标准用于所有文本生成任务

通过自然语言指示引导的训练度量 TIGERScore 对广泛的文本生成任务进行解释性和无参考评估，该度量基于经过精心策划的指示调优数据集 MetricInstruct 进行 LLaMA 训练，覆盖 6 个文本生成任务和 23 个文本生成数据集，通过与人类评分的相关性评估和定性评估结果表明，TIGERScore 在这些数据集上能够取得最高的斯皮尔曼相关性，显著优于其他度量标准，并且作为无参考度量标准，其相关性甚至可以超过最佳的基于参考的度量标准，通过这些实验结果，我们相信 TIGERScore 展示了建立通用的可解释性度量标准来评估任何文本生成任务的可能性。

Oct, 2023

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

面向自然语言生成的可解释评估度量

本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法，通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性，提出了未来解释性评估指标的发展方向。

Mar, 2022

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

内部故事：迈向更好理解机器翻译神经评估指标

本文研究了神经度量与传统度量方法在评估机器翻译中的差异，并开发了多种神经可解释性方法来解释这些度量方法，并证明这些方法能够有效地分析翻译错误，促进未来的研究。

May, 2023

INSTRUCTEVAL：面向指导调整的大语言模型的全面评估

INSTRUCTEVAL 是一个全面的评估套件，旨在评估大型语言模型在指令调整下的表现，其结果表明，指令数据的质量是影响模型性能的最重要因素，并且从问题解决能力和与人类价值观的一致性方面，这些模型还有很大的提升空间。

Jun, 2023

GPTScore：任意评估

本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Feb, 2023

DecompEval：以无监督分解的问答方式评估生成文本

本文提出了一种简单而有效的度量方法 DecompEval，该方法在自然语言生成（NLG）评估中使用了指令调整的预训练语言模型，以提高其泛化能力和可解释性。实验结果表明，DecompEval 在未训练的度量标准中取得了最先进的性能，适用于评估文本摘要和对话生成的各种任务和评估维度，并具有较强的泛化能力和可解释性。

Jul, 2023

不是所有的错误都是相等的：使用分层错误合成学习文本生成度量

本文提出利用迭代的错误合成与强度评分的新颖流程构建高度相关于人类判断的基于模型的指标 SESCORE，该指标无需人工注释，在多个不同的自然语言生成任务中优于所有现有的无监督指标，并且即使没有获得任何人工标注训练数据，SESCORE 也实现了与最佳监督指标 COMET 相当的性能。

Oct, 2022

EditEval：面向文本改进的基于指令的基准测试

本文提出 EditEval：一种以指令为基础的评测套件，利用高质量的现有和新数据集自动评估编辑能力，证明了 InstructGPT 和 PEER 的表现最佳，而大多数基线都低于监督学习 SOTA，本文通过这个基准的发布和公开可用的排行榜挑战，希望能够解锁未来发展能够进行迭代和更可控编辑的模型的研究。

Sep, 2022