语言模型增强相关性得分

ACLAug, 2021

Language Model Augmented Relevance Score

Ruibo Liu, Jason Wei, Soroush Vosoughi

TL;DR本文介绍了一种新的面向语言生成的评估标准，即 Language Model Augmented Relevance Score（MARS）。该标准引入了强化学习引导的预训练语言模型来创建上下文感知的评估参考，并将之用于对生成文本进行评分。与已有的七种评估标准相比，MARS 不仅更好地反映了人类评价，而且在较大程度上区分了良好生成结果和对抗样本。

Abstract

Although automated metrics are commonly used to evaluate nlg systems, they often correlate poorly with human judgements. Newer metrics such as be

automated metrics nlg systems bertscore mars relevance score

发现论文，激发创造

MARS: 生成型 LLM 中对不确定性估计的意义感知响应评分

通过引入 “Meaning-Aware Response Scoring”（MARS）作为不确定性估计方法的替代方法，将 MARS 整合到不确定性估计方法中可普遍且显著提高不确定性估计性能。

Feb, 2024

自然语言生成的人类似评估及其误差分析

该论文介绍了一种基于 BARTScore 的人工智能评估方法，通过自动化错误分析以达到更接近人类的漏洞检测，实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。

Dec, 2022

RoMe: 一种稳健的自然语言生成度量标准

本文提出了一种有效的自动评估度量 RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明，在评估多个 NLG 任务生成的句子方面，RoMe 与人类判断的相关性比最先进的度量更强。

Mar, 2022

基于语义相似度评分的面向意义的自然语言生成测度评估动态、解释性清单

本研究旨在支持对生成文本的质量评估，并针对属性更相关性的 NLG 评估指标进行比较评估，提出了一种 AMR-based CheckList 方法，用于意义相关的语言现象，设计了 GraCo 评估指标，使用 AMR 计算词汇凝聚图，表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。

May, 2022

LLM 作为自恋评估者：当自我膨胀影响评分

本研究探讨了自然语言处理领域中生成文本内容的自动评估问题，特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差，并揭示出在无参考摘要的情况下，这种评估指标可能受到潜在偏见的影响，强调未来需要开发更可靠的评估协议。

Nov, 2023

使用 BERT 评估文本生成

BERTScore 是一种针对文本生成的自动评估指标，利用上下文嵌入计算 token 的相似性，能够更好地与人类判断相关，并提供比现有度量更强的模型选择性能。

Apr, 2019

QRelScore: 基于上下文感知关联性更好地评估生成的问题

提出了一种基于上下文的问题生成的相关性评估度量，称为 QRelScore，它使用字级层次匹配和基于句子级提示的生成，能够应对复杂的推理和多个证据的多样化生成，并且与现有度量相比，具有更高的相关性，并且更具鲁棒性。

Apr, 2022

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023