缺乏证据的事实验证
研究发现现有的 NLP 辟谣任务定义无法像专业辟谣人员那样驳斥绝大多数谣言,且现有数据集不满足辟谣的要求。同时,研究表明现有的大规模事实核查数据集的模型依赖于泄露的信息,因此无法在真实世界的情况下使用。因此,当前的 NLP 辟谣无法在真实世界的情况下有效应对虚假信息。
Oct, 2022
这篇研究通过多种神经和非神经预处理以及风格转移技术,消除了假新闻检测模型中情感、情绪、词性等易受攻击的指标,从而推断出这些模型中可能隐藏着可操纵的信号,并通过情感向量模型构建进一步证明了这一假设。
Apr, 2022
自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白,该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外,我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源 LLM 仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明,先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性,给 FC 评估提出了新的挑战。
Feb, 2024
本文探讨了事实检查模型的推理方式以及声明和证据的关系,并发现在政治事实检查数据集上,仅使用证据比同时使用声明和证据的效果更好。这凸显了现有的自动虚假新闻检测方法中构成证据的重要问题。
May, 2021
本文介绍了事实错误校正的任务和方法:通过编辑要求以便生成的改写通过证据更好地支持。使用 T5 Transformer 基于远程监督的方法,通过将证据合并到掩码声明中来训练事实错误校正系统。在一个基于最近事实验证共享任务的数据集上进行评估,结果表明我们的方法可以比现有的方法更准确地对事实错误进行校正,在人工评估中将错误校正的数量提高了 5 倍,并且 SARI 分数提高了 0.125。
Jun, 2021
本文介绍了一个新的任务:事实错误纠正。通过将证据整合到掩码声明中进行更正,学习纠正事实错误的系统。本文中提出了一个基于 T5 变压器的两阶段远程监督方法,通过检索证据获得更好的结果,从而取得了更好的性能,并通过人类评估证明了其有效性。
Dec, 2020
基于大型语言模型,从网络中自动检索和总结证据,以解决可解释的事实检查系统中提供足够和相关证据的挑战,并通过 RU22Fact 构建一个新颖的多语言可解释的事实检查数据集,基于该数据集开发出了一个端到端的可解释的事实检查系统,实验结果表明优化的证据可以提高事实检查性能,并显示端到端声明验证和解释生成任务有进一步进展的可能性。
Mar, 2024
该研究旨在改善自动事实核查系统,并尝试将原始文档的全文作为证据,并引入了两个丰富的数据集。实验证明,即使没有标注黄金证据句子,包括原始文档在内的证据可以提供足够的上下文线索,该系统能够在不同的设置下显著提高最佳报告模型的精度。
May, 2023
研究表明,利用时间信息可以对基于证据的事实检验的认证过程起到积极的正向影响,通过对构建共享时间轴的发布日期和时间表达式进行基础建设可以建立索赔和证据之间的时间关系,从而提供给基于循环神经网络(RNN)和转换器(Transformer)的分类器时间信息以进行认证。
Feb, 2023