通过聚合提示识别错误（DEEP）：一种用于检测事实错误的端到端 LLM 框架

Jun, 2024

通过聚合提示识别错误（DEEP）：一种用于检测事实错误的端到端 LLM 框架

Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors

Alex Chandler, Devesh Surve, Hui Su

TL;DR用于检测大语言模型生成的文本摘要中的事实错误的一种框架，该框架通过使用多样的语言模型提示来识别事实不一致，并将其输出作为二进制特征进入集成模型，从而产生经验性准确的概率来判断文本是否在事实上一致或不含幻想。

Abstract

Accurate text summarization is one of the most common and important tasks performed by Large Language Models, where the costs of human review for an entire document may be high, but the costs of errors in summarization may be even greater. We propose →

text summarization large language model factual errors detecting errors ensemble models

发现论文，激发创造

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

对话摘要中注释和检测细粒度事实错误

本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT，以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER，该模型表现出与 SOTA 模型相当的性能，并且需要更少的资源。这些发现证实了从对话摘要中检测事实错误的挑战，这为进一步研究提供了坚实的基础。

May, 2023

增强事实性的语言模型用于开放式文本生成

本研究针对大规模预训练的语言模型，设计测试集和度量标准以提高生成文本的事实准确性，提出了基于主题前缀和句子补全的事实增强训练方法，并提出了更适合提高准确性的采样算法。

Jun, 2022

提高文本摘要的事实一致性：通过对 L 软件理解与装饰能力进行对抗解耦

本文提出了一种基于对抗解耦的方法（DECENT），旨在提高大型语言模型（LLMs）的文本摘要的准确性和可靠性，以克服其在生成摘要时出现的谬误和虚假细节的问题。

Oct, 2023

摘要中事实不一致的识别：向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线 2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

mFACE: 多语言事实一致性评估自动摘要

本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Dec, 2022

基于大型语言模型的事实对话摘要

通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性，我们在对话摘要中取得了更好的事实一致性，同时保持了连贯性、流畅性和相关性。

Jun, 2024

通过后期编辑和语言模型填充纠正抽象摘要中的多样化事实错误

本文提出使用语言模型生产更加具有代表性的无事实描述样例，训练出更加强大和鲁棒的基于事实更正的模型对生成的摘要进行错误更正提高摘要的事实一致性。

Oct, 2022

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

机器生成摘要的事实错误的零射多标签分类

本研究旨在解决机器生成的文本摘要中存在的事实错误问题，并研究了这些错误对信息可靠性的潜在影响。我们引入了一种基于提示的分类系统，将错误分为四类：误述、数量或衡量不准确、虚假归属和伪造。通过定性判断，我们使用一组参与者对机器生成的摘要与原文进行了评估，并检测事实失真的发生。结果表明，我们基于提示的方法在一定程度上能够检测到摘要中的错误类型，尽管我们的分类系统还有改进空间。

Dec, 2023