零样式忠实事实误差校正
本文提出了一种新的零射击方法,将声称和证据句子转化为语义三元组并使用大型语言模型进行自然语言推理,从而在没有特定训练数据的敌对数据集和领域中广义推广,在 FEVER、FEVER-Symmetric、FEVER 2.0 和 Climate-FEVER 数据集上优于先前的零射击方法,同时在敌对和异域数据集上与监督模型相当甚至更好。
Dec, 2023
本文介绍了事实错误校正的任务和方法:通过编辑要求以便生成的改写通过证据更好地支持。使用 T5 Transformer 基于远程监督的方法,通过将证据合并到掩码声明中来训练事实错误校正系统。在一个基于最近事实验证共享任务的数据集上进行评估,结果表明我们的方法可以比现有的方法更准确地对事实错误进行校正,在人工评估中将错误校正的数量提高了 5 倍,并且 SARI 分数提高了 0.125。
Jun, 2021
本文介绍了一个新的任务:事实错误纠正。通过将证据整合到掩码声明中进行更正,学习纠正事实错误的系统。本文中提出了一个基于 T5 变压器的两阶段远程监督方法,通过检索证据获得更好的结果,从而取得了更好的性能,并通过人类评估证明了其有效性。
Dec, 2020
提出一种新指标 FFLM,结合基于概率变化的方法评估生成模型的忠实度,相比于强基准模型 ChatGPT 拥有更少的参数,并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。
Oct, 2023
本研究旨在解决机器生成的文本摘要中存在的事实错误问题,并研究了这些错误对信息可靠性的潜在影响。我们引入了一种基于提示的分类系统,将错误分为四类:误述、数量或衡量不准确、虚假归属和伪造。通过定性判断,我们使用一组参与者对机器生成的摘要与原文进行了评估,并检测事实失真的发生。结果表明,我们基于提示的方法在一定程度上能够检测到摘要中的错误类型,尽管我们的分类系统还有改进空间。
Dec, 2023
本文提出 FERRANTI 框架,基于参考文献纠错的细粒度评估机制,通过实验证明了 FEC 方法在不同事实错误类别上的显著性能差异,以及提出的最佳训练模式。
Jun, 2023
本文分析了以往的研究结果,发现 QA 基础框架在生成摘要时无法正确标定错误位置,并且由于 QG 模块生成的问题中存在非事实性错误,使问题进一步扩散。尽管进行人类辅助的问题生成也并不能轻易地解决这些问题。因此,实验结果表明,QA 框架在错误的局部化方面存在根本问题,不能仅仅通过加强 QA 和 QG 模型来解决。
Oct, 2022
本研究提出了一种后处理校正模块来解决神经抽象汇总系统的事实一致性问题,该模块采用预训练的神经校正模型,能够识别和修正所生成的摘要中的事实错误,并在 CNN / DailyMail 数据集上表现出比先前模型更好的事实一致性的评估结果。
Oct, 2020
大型语言模型(LLM)的零摘要生成与人工编写的参考摘要相媲美,我们评估了零摘要生成摘要在生物医学文章等专业领域的实际性,并通过领域专家注释识别总结中的不一致性。
Feb, 2024