使用大型语言模型评估摘要的事实一致性

May, 2023

使用大型语言模型评估摘要的事实一致性

Evaluating Factual Consistency of Summaries with Large Language Models

Shiqi Chen, Siyang Gao, Junxian He

TL;DR本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

Abstract

Detecting factual errors in summaries has been an important and challenging subject in summarization research. Inspired by the emergent ability of large language models (LLMs), we explore evaluating factual consi

factual errors summarization research large language models factual consistency evaluators inconsistency detection

发现论文，激发创造

摘要中事实不一致的识别：向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线 2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

基于大型语言模型的事实对话摘要

通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性，我们在对话摘要中取得了更好的事实一致性，同时保持了连贯性、流畅性和相关性。

Jun, 2024

通过摘要评估大型语言模型的事实一致性

本文提出了一个新的大语言模型（LLMs）准确性检验基准，称之为 FIB（Factual Inconsistency Benchmark），并在 23 个 1B 到 176B 参数的不同模型家族中评估了其实用性。结果表明，现有的 LLMs 通常将更高的分数分配给事实上一致的总结，但如果不一致的总结在文档中出现，那么 LLMs 将会赋予这些不一致的总结比事实上一致的总结更高的分数。

Nov, 2022

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

LLMs 作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差 8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

mFACE: 多语言事实一致性评估自动摘要

本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Dec, 2022

通过聚合提示识别错误（DEEP）：一种用于检测事实错误的端到端 LLM 框架

用于检测大语言模型生成的文本摘要中的事实错误的一种框架，该框架通过使用多样的语言模型提示来识别事实不一致，并将其输出作为二进制特征进入集成模型，从而产生经验性准确的概率来判断文本是否在事实上一致或不含幻想。

Jun, 2024

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

大型语言模型中的长篇事实准确性

大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性，我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集，然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法（称为 SAFE），通过将长篇回复分解为一组单个事实，并使用多步推理过程（发送搜索查询到 Google 搜索并确定搜索结果是否支持事实）来评估每个事实的准确性。此外，我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准，通过将回复中的支持事实的百分比（准确率）与相对于用户首选回复长度的超参数表示的提供事实的百分比（召回率）进行平衡。实证上，我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致，在 100 个不一致案例的随机子集中，SAFE 赢得了 76% 的情况。与此同时，SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试，涵盖四个模型系列（Gemini，GPT，Claude 和 PaLM-2），发现较大的语言模型通常可以实现更好的长篇事实性。LongFact，SAFE 和所有实验代码均可在此 https URL 中获取。

Mar, 2024