研究表明,目前预训练的抽象摘要系统在性能上已经取得了可信的表现,但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据,用于训练模型来识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察,作者认为人工标注的细粒度数据提供了更有效的训练信号,并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记,从而使得训练更为准确的抽象摘要模型成为可能。
Apr, 2021
FactGraph 方法使用结构化的意义表示形式以及基于图的编码器和适配器来提高文本摘要的真实性。
Apr, 2022
本文介绍一个基于文本蕴涵模型和强化学习的方法,用于优化提取式摘要的准确性和一致性,并在自动度量和人类评估上显示出较好的性能。
May, 2023
该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性,并鉴别来源文献和生成的摘要之间的冲突。
Oct, 2019
本文系统地比较了将事实性分值应用于分解的不同粒度,并表明不是所有数据集都适用于将上下文信息集成到模型中的方法。
Nov, 2022
探索事实性与自然语言推理之间的关系,并引入 FactRel 注释方案来模拟事实性推理,分析表明,事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系,这表明事实关系更适合分析媒体话语;在新数据集上进行了对比分类模型的实验,并发现在某些情况下,基于注释数据集使用 GPT-4 生成合成数据可以提高性能,而使用 GPT-4 进行少样本学习的结果与在标注数据集上训练的中型语言模型(DeBERTa)相当强大,这些结果表明此任务在世界知识和高级推理能力上的基本依赖关系。
Jun, 2024
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019
介绍了一种新颖的事实推理方法(Factual Entailment),用于检测大型语言模型生成的内容中的事实错误(hallucinations),并提出了一个基准数据集(FACTOID)用于评估和排名语言模型的自动错误产生脆弱性指数(Auto Hallucination Vulnerability Index) 。
Mar, 2024
本文提出了一种基于自然语言的演绎推理系统,通过将任务分解为逐步协调的步骤,并由搜索程序生成中间结论的树,可以成功地证明真实的语句并拒绝虚假的语句。
Jan, 2022
提出了一种新的度量生成摘要与原文事实一致性的方法,并展示了通过简单的过滤训练数据可减少实体幻觉问题。此外,还提出了一个摘要值得关注的实体分类任务及联合实体和摘要生成方法,并在实体层面的指标上得到了进一步的改进。
Feb, 2021