AXCEL：使用大语言模型的自动可解释一致性评估

Sep, 2024

AXCEL：使用大语言模型的自动可解释一致性评估

AXCEL: Automated eXplainable Consistency Evaluation using LLMs

P Aditya Sreekar, Sahil Verma, Suransh Chopra, Sarik Ghazarian, Abhishek Persad...

TL;DR本研究解决了评估生成文本一致性的问题，现有的度量方法与人类判断的相关性较低且缺乏可解释性。提出的AXCEL方法通过提供详细推理和指出不一致文本片段，显著提高了评估水平，且能够广泛适用于多种任务。AXCEL在检测不一致性方面超越了现有的最先进指标，其性能提升显著，具有广泛的应用潜力。

Abstract

Large Language Models (LLMs) are widely used in both industry and academia for various tasks, yet evaluating the consistency of generated text responses continues to be a challenge. Traditional metrics like ROUGE and BLEU show a weak correlation with human judgment. More sophisticated

发现论文，激发创造

重新评估事实一致性评估

TRUE评测了多个评估度量的实际应用，并推荐大规模NLI及基于生成问答的方法作为模型和度量开发者的起点，以期推动更好的评估方法的进步。

Apr, 2022

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在TruthfulQA数据集上评估多个PLMs的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型(DLM)来评估摘要的事实一致性，并通过对GPT模型系列和Flan-T5等不同类型的DLM进行分析，以及对多种提示方法进行研究，最终证明了直接针对DLM的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

ICL一致性测试

通过在GenBench合作基准任务中引入ICL一致性测试，我们对适应任务的通过提示方法（如上下文学习）的大型语言模型执行预测的一致性进行了评估，并发现所有测试的LLM模型均缺乏强健的泛化能力。

Dec, 2023

DCR-一致性：大规模语言模型的划分-征服-推理的一致性评估和改进

提出了DCR（一种自动化评估框架）以评估和改善大型语言模型生成的文本一致性，通过使用分而治之的方法，将段落到段落之间的比对转化为句子到段落的比对，并引入了自动度量转换器以翻译结果为可解释的数值分数。该方法在评估一致性方面表现出色，还能显著减少近90%的输出不一致性，并有望有效减少虚假信息。

Jan, 2024

SemScore：基于语义文本相似度的指导调整LLMs的自动评估

提出一种称为SemScore的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到90%的得分。

Apr, 2024

量化LLM对提示工程的敏感性和一致性：我做错了什么？

使用两个度量标准（敏感性和一致性）来评估大型语言模型在分类任务中的性能，并希望它们能成为自动提示工程框架中寻求平衡鲁棒性与性能的有力工具。

Jun, 2024

PrExMe！大规模探索开源LLM用于机器翻译和摘要评估

LLM 和基于 LLM 的度量方法的稳定性和变异性，探索了不同提示策略影响机器翻译和摘要评估的研究，发现了最稳定的提示模式和潜在限制。

Jun, 2024