对话中的自动事实核查:需要专门的模型吗?
通过构建一个名为 DialFact 的测试基准数据集,该数据集包含了 22,245 个带注释的对话声明和来自维基百科的证据片段,并提出了在对话中事实核查的三个子任务:可验证的声明检测、证据检索和索取的内容足够详细的陈述是否被支持。针对 DialFact 的独特挑战,本文提出了一种简单而数据效率高的解决方案,以有效提高对话中的事实核查性能。
Oct, 2021
本研究调查了语言特定的事实核查模型的潜在益处,重点关注汉语的情况。我们通过翻译中文声明和证据成英文,或直接使用多语言大型语言模型(如 GPT4)的方法的限制,强调了需要语言特定系统的必要性。我们进一步发展了一种最先进的汉语事实核查系统,与之前将证据选择视为成对句子分类任务的方法相反,该系统考虑了句子的上下文。我们还创建了一个对抗性数据集来识别模型中的偏见,虽然这种偏见与英文语言数据集和模型中的偏见相似,但通常特定于中国文化。我们的研究强调了语言特定的事实核查模型对有效打击虚假信息的重要性。
Jan, 2024
本文研究了自动事实检查的问题,关注上下文和语篇信息的影响。研究并解决了两个相关任务:检测与检查有关的声明以及检查有关的声明。开发了基于神经网络、基于内核的支持向量机和两者组合的监督系统,在输入表示方面使用了丰富的话语线索和上下文特征。从政治辩论中着重关注可检查性估计任务,并在辩论的整个干预、前面和后续转变的语境中对目标声明进行建模,考虑语境元信息。从社区论坛中关注答案验证的事实检查任务,并将答案的真实性与其所在的整个问题 - 答案线程以及来自整个论坛的其他相关帖子的真实性进行建模。我们为两个任务开发了注释数据集,并进行了广泛的实验评估,确认两种信息 (尤其是上下文特征) 发挥重要作用。
Aug, 2019
本文综述了基于自然语言处理的自动事实核查技术及其在相关学科里的应用。该技术使用自然语言处理、机器学习、知识表示和数据库等技术预测声称的可信度,同时介绍了现有数据集和模型,旨在统一各种定义并识别通用概念,最后提出了未来研究的挑战。
Aug, 2021
我们提出了针对事实检查领域的常见问题的改进算法,包括对传统的 retriever-reader 模型的性能下降问题的改进,以及对 reader 组件的改进,通过对 claims 和 evidence documents 的无序性进行训练,从而提高对分布偏移的鲁棒性。此外,我们还提出了一种自动方法来构建多主题事实检查数据集,并将我们的模型与一组强大的基准模型进行比较。
Mar, 2024
本文介绍了一个用于事实核查的自动化平台,该平台能够检索相关文本证据,预测每个证据是否支持或反驳一个声明,并返回最终结论。此外,本文还对这个平台在新闻工作流中的应用进行了用户研究,并为其性能作出了评估。结果表明,该平台的预测正确率为 58%,返回的证据中有 59%是相关的。
Apr, 2019
本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法,并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线,而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法,但我们相信我们的探索显示出这种方法是可行的,并且有很大的发展空间。
Jun, 2020