通过聚合提示识别错误(DEEP):一种用于检测事实错误的端到端 LLM 框架
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT,以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER,该模型表现出与 SOTA 模型相当的性能,并且需要更少的资源。这些发现证实了从对话摘要中检测事实错误的挑战,这为进一步研究提供了坚实的基础。
May, 2023
本研究针对大规模预训练的语言模型,设计测试集和度量标准以提高生成文本的事实准确性,提出了基于主题前缀和句子补全的事实增强训练方法,并提出了更适合提高准确性的采样算法。
Jun, 2022
本文提出了一种基于对抗解耦的方法(DECENT),旨在提高大型语言模型(LLMs)的文本摘要的准确性和可靠性,以克服其在生成摘要时出现的谬误和虚假细节的问题。
Oct, 2023
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线 2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024
本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果,针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。
Dec, 2022
本文提出使用语言模型生产更加具有代表性的无事实描述样例,训练出更加强大和鲁棒的基于事实更正的模型对生成的摘要进行错误更正提高摘要的事实一致性。
Oct, 2022
研究表明,目前预训练的抽象摘要系统在性能上已经取得了可信的表现,但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据,用于训练模型来识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察,作者认为人工标注的细粒度数据提供了更有效的训练信号,并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记,从而使得训练更为准确的抽象摘要模型成为可能。
Apr, 2021
本研究旨在解决机器生成的文本摘要中存在的事实错误问题,并研究了这些错误对信息可靠性的潜在影响。我们引入了一种基于提示的分类系统,将错误分为四类:误述、数量或衡量不准确、虚假归属和伪造。通过定性判断,我们使用一组参与者对机器生成的摘要与原文进行了评估,并检测事实失真的发生。结果表明,我们基于提示的方法在一定程度上能够检测到摘要中的错误类型,尽管我们的分类系统还有改进空间。
Dec, 2023