TIGERScore：建立可解释的度量标准用于所有文本生成任务

Oct, 2023

TIGERScore：建立可解释的度量标准用于所有文本生成任务

TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks

Dongfu Jiang, Yishan Li, Ge Zhang, Wenhao Huang, Bill Yuchen Lin...

TL;DR通过自然语言指示引导的训练度量 TIGERScore 对广泛的文本生成任务进行解释性和无参考评估，该度量基于经过精心策划的指示调优数据集 MetricInstruct 进行 LLaMA 训练，覆盖 6 个文本生成任务和 23 个文本生成数据集，通过与人类评分的相关性评估和定性评估结果表明，TIGERScore 在这些数据集上能够取得最高的斯皮尔曼相关性，显著优于其他度量标准，并且作为无参考度量标准，其相关性甚至可以超过最佳的基于参考的度量标准，通过这些实验结果，我们相信 TIGERScore 展示了建立通用的可解释性度量标准来评估任何文本生成任务的可能性。

Abstract

We present tigerscore, a \textbf{T}rained metric that follows \textbf{I}nstruction \textbf{G}uidance to perform \textbf{E}xplainable, and \textbf{R}eference-free evaluation over a wide spectrum of text generation

tigerscore trained metric instruction guidance explanation text generation

发现论文，激发创造

TIGEr: 图像文字链接用于图像描述语句评估

本论文提出了一种名为 TIGEr 的新度量标准，用于自动评估图像标题生成系统，该度量标准不仅基于标题对图像内容的表现，还基于机器生成的标题与人生成的标题匹配程度；经实验测试，TIGEr 与人类判断的一致性要比其他度量标准更高，同时也通过人员评分与度量分数的相关性全面评估了该度量标准的有效性。

Sep, 2019

INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。

May, 2023

T5Score: 生成式评估度量的判别微调

该研究提出了一个结合监督学习和无监督信号的框架，使用 T5Score 作为度量标准，对生成文本进行评估，并通过实验数据表明 T5Score 在各个数据集上均取得了最佳表现。

Dec, 2022

面向自然语言生成的可解释评估度量

本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法，通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性，提出了未来解释性评估指标的发展方向。

Mar, 2022

通过将语言要素分解来解释基于 BERT 的评估度量的全球可解释性

本文研究了基于 BERT 的评估指标在文本生成上的效果。通过使用一种简单的回归全局可解释性技术，将指标分解成了语言要素，包括语义、句法、形态和词汇重叠。研究表明，不同的评估指标在一定程度上对所有方面都有所捕捉，但它们都非常敏感于词汇重叠，正如 BLEU 和 ROUGE 所做的那样。这揭示了这些新提出的指标的限制，在敌对测试场景下也得到了证实。

Oct, 2021

使用 BERT 评估文本生成

BERTScore 是一种针对文本生成的自动评估指标，利用上下文嵌入计算 token 的相似性，能够更好地与人类判断相关，并提供比现有度量更强的模型选择性能。

Apr, 2019

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

BMX: 提升机器翻译度量的可解释性

研究使用解释性评分来提高机器翻译评估指标，并经过多个数据集、指标和解释技术的广泛评估和分析，发现某些配置可靠地提高原指标与人类判断的相关性。

Dec, 2022

评估生成文本的事实准确性

该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

May, 2019

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021

TIGERScore：建立可解释的度量标准 用于所有文本生成任务

TIGERScore：建立可解释的度量标准用于所有文本生成任务