论文介绍了一种新的认领审核数据集,其中包括来自搜索引擎查询的实例,共包含 10,987 个带有证据的主张,证据来自完整的维基百科文章,注释具有章节和句子级别的细粒度,通过总体评估,作者发现使用证据提取来总结最终用户的理由时,预测主张真实性的准确性并没有明显差异,此数据集还存在挑战性问题,作者在转移学习实验中进行了证明
Apr, 2021
本文提出了一种新的零射击方法,将声称和证据句子转化为语义三元组并使用大型语言模型进行自然语言推理,从而在没有特定训练数据的敌对数据集和领域中广义推广,在 FEVER、FEVER-Symmetric、FEVER 2.0 和 Climate-FEVER 数据集上优于先前的零射击方法,同时在敌对和异域数据集上与监督模型相当甚至更好。
Dec, 2023
我们研究了事实验证(FV)的零样本和小样本泛化,目标是将在资源丰富领域(如维基百科)上训练的 FV 模型推广到缺乏人类注释的低资源领域。通过构建包含 11 个 FV 数据集的基准数据集集合,我们对这些 FV 数据集之间的泛化进行了实证分析,发现现有模型的泛化能力较差。我们的分析揭示了几个影响泛化的因素,包括数据集大小、证据长度和索赔类型。最后,我们展示了两个改进泛化能力的方法:1)通过预训练在特定领域中引入领域知识,2)通过索赔生成自动生成训练数据。
Sep, 2023
使用 Wikipedia 自动产生问题 - 答案对,生成不同类型的声明的 QACG 框架可以训练一个强健的事实验证模型,实验结果表明,在零样本情况下,QACG 能够将 RoBERTa 模型的 F1 从 50%提高到 77%,并且等效于 2000 多个手动筛选的例子。
May, 2021
大型语言模型(LLM)的零摘要生成与人工编写的参考摘要相媲美,我们评估了零摘要生成摘要在生物医学文章等专业领域的实际性,并通过领域专家注释识别总结中的不一致性。
Feb, 2024
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
科学的论断验证是一个新的任务,其目的是从研究文献中选择包含支持或驳斥给定科学论断的摘要,并确定证据。为了研究这个任务,我们构建了 SciFact 数据集,其中包括 1.4K 个专家撰写的科学论断,以及用标签和论据注释的含有证据的摘要。我们开发了 SciFact 的基线模型,并证明简单的领域适应技术可以大大提高性能,并能够使用 CORD-19 语料库鉴定与 COVID-19 相关的声明。我们的实验表明,SciFact 将为设计用于检索和推理包含专业领域知识的语料库的新系统提供具有挑战性的测试平台。
Apr, 2020
通过提取和融合来源摘要的相关证据理由,提出了一种调用二分类序列逐个进行预测子任务的模块化方法,从而实现科学主张的自动验证,包括验证支持和反驳证据,该方法名为 RerrFact,并平台竞争 SciFact 排行榜。
Feb, 2022
本研究提出了一种基于自我验证的方法,利用大语言模型在不需要可靠人工注释的情况下,提高规范化临床信息提取的准确性,并为其提供输出解释,有助于在资源受限的情况下有效审核提取的临床信息。
May, 2023
本文提出了一种基于向量的新颖 few-shot 分类方法,使用 pairwise 语义差异来建立类别代表向量,与现有的竞争基准相比,实验证明在自动事实检查环节准确率有显著提升。
May, 2022