对话中的自动事实核查：需要专门的模型吗？

EMNLPNov, 2023

对话中的自动事实核查：需要专门的模型吗？

Automated Fact-Checking in Dialogue: Are Specialized Models Needed?

Eric Chamoun, Marzieh Saeidi, Andreas Vlachos

TL;DR利用检索适应和转换对话输入的技术，使得典型事实核查模型在对话和独立断言上都能保持准确性，与对话精细调整模型相比具有竞争力。

Abstract

Prior research has shown that typical fact-checking models for stand-alone claims struggle with claims made in dialogues. As a solution, fine-tuning these models on labelled →

fact-checking dialogue fine-tuning retrieval adaptation conversational inputs

发现论文，激发创造

DialFact：对话事实核查基准

通过构建一个名为 DialFact 的测试基准数据集，该数据集包含了 22,245 个带注释的对话声明和来自维基百科的证据片段，并提出了在对话中事实核查的三个子任务：可验证的声明检测、证据检索和索取的内容足够详细的陈述是否被支持。针对 DialFact 的独特挑战，本文提出了一种简单而数据效率高的解决方案，以有效提高对话中的事实核查性能。

Oct, 2021

我们需要专门的事实核实模型吗？以中文为例

本研究调查了语言特定的事实核查模型的潜在益处，重点关注汉语的情况。我们通过翻译中文声明和证据成英文，或直接使用多语言大型语言模型（如 GPT4）的方法的限制，强调了需要语言特定系统的必要性。我们进一步发展了一种最先进的汉语事实核查系统，与之前将证据选择视为成对句子分类任务的方法相反，该系统考虑了句子的上下文。我们还创建了一个对抗性数据集来识别模型中的偏见，虽然这种偏见与英文语言数据集和模型中的偏见相似，但通常特定于中国文化。我们的研究强调了语言特定的事实核查模型对有效打击虚假信息的重要性。

Jan, 2024

使用上下文和语篇信息进行自动事实检查

本文研究了自动事实检查的问题，关注上下文和语篇信息的影响。研究并解决了两个相关任务：检测与检查有关的声明以及检查有关的声明。开发了基于神经网络、基于内核的支持向量机和两者组合的监督系统，在输入表示方面使用了丰富的话语线索和上下文特征。从政治辩论中着重关注可检查性估计任务，并在辩论的整个干预、前面和后续转变的语境中对目标声明进行建模，考虑语境元信息。从社区论坛中关注答案验证的事实检查任务，并将答案的真实性与其所在的整个问题 - 答案线程以及来自整个论坛的其他相关帖子的真实性进行建模。我们为两个任务开发了注释数据集，并进行了广泛的实验评估，确认两种信息 (尤其是上下文特征) 发挥重要作用。

Aug, 2019

自动化事实核查综述

本文综述了基于自然语言处理的自动事实核查技术及其在相关学科里的应用。该技术使用自然语言处理、机器学习、知识表示和数据库等技术预测声称的可信度，同时介绍了现有数据集和模型，旨在统一各种定义并识别通用概念，最后提出了未来研究的挑战。

Aug, 2021

检测不需要事实判断的响应生成

大型语言模型在对话中实现吸引力和真实性的研究，通过众包创建了一个对话数据集，用于分类任务，并且最高分类准确率达到了 88%。

Jun, 2024

训练事实验证器的方法：多模态开放模型的知识传递

通过知识传递策略，可以提高模型性能，从而有效验证消息的真实性，扩大网络警察机制的规模，减轻虚假和有害内容的传播。

Jun, 2024

生成事实检查解释

本文针对自动事实检测的不足之处，提供了首个研究可利用可用的声明上下文生成自动化证明，并且演示了一项同时优化判断准确性预测和证明生成的多任务模型平均性能更好。

Apr, 2020

训练集以外的事实核查

我们提出了针对事实检查领域的常见问题的改进算法，包括对传统的 retriever-reader 模型的性能下降问题的改进，以及对 reader 组件的改进，通过对 claims 和 evidence documents 的无序性进行训练，从而提高对分布偏移的鲁棒性。此外，我们还提出了一种自动方法来构建多主题事实检查数据集，并将我们的模型与一组强大的基准模型进行比较。

Mar, 2024

新闻室自动化事实检查

本文介绍了一个用于事实核查的自动化平台，该平台能够检索相关文本证据，预测每个证据是否支持或反驳一个声明，并返回最终结论。此外，本文还对这个平台在新闻工作流中的应用进行了用户研究，并为其性能作出了评估。结果表明，该平台的预测正确率为 58％，返回的证据中有 59％是相关的。

Apr, 2019

语言模型作为事实检查员？

本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法，并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线，而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法，但我们相信我们的探索显示出这种方法是可行的，并且有很大的发展空间。

Jun, 2020