推特上的众包事实核查:众筹与专家相比如何?
通过对 fact-checkers 的语言特征进行分析和提出建议,使用基于深度学习的文本生成框架来生成可以提高辨别信息真假的参与度的回复,提高了辨别真假信息的准确度。
Oct, 2019
本文研究了社交媒体上与COVID-19有关的虚假言论和事实检查,发现专业的事实检查虽然重要但可见性有限,而互联网用户通过众包的方式可以在社交平台上成功地反驳虚假言论。
Nov, 2020
本研究关注于政治辩论中的言论,并研究了对言论进行上下文建模(涵盖辩论和事实核查解释文档)的影响。实验结果表明,建模辩论方面的上下文最为重要,可以比现有的先进模型提高10个百分点以上。
Apr, 2021
FacTeR-Check是一个半自动事实核查工具,能够检索事实核查信息,验证未核实的声明以及跟踪社交媒体上的危险信息,并使用多个组件(包括语义相似性、自然语言推理和社交媒体信息检索)构建。在相关基准测试上表现出最先进的性能,并在新数据集NLI19-SP上进行验证,该数据集包含与COVID-19有关的谣言和西班牙社交媒体上的推文,对61个不同谣言的演变进行了有用的分析。
Oct, 2021
通过对社交媒体上的观点进行众包事实核查,并运用改进的自适应训练方法进行学习,以建立一个端到端的自动事实核查框架来解决训练数据稀缺的问题,并较之现有技术提升 2 个百分点。
Oct, 2022
在线社交媒体平台的扩展导致了在线内容消费的激增,但也为传播虚假主张和错误信息铺平了道路。因此,需求不断扩大,需要大量的人力来筛选和验证这些未经验证的声明。虽然这些声明目前由事实核查员手动验证,但是在线内容的数量常常超过他们的能力范围,使得他们无法及时验证每一个声明。因此,至关重要的是确定哪些主张值得进行事实核查,并优先处理需要立即关注的主张。多个因素有助于判断一个主张是否需要进行事实核查,这些因素包括其事实上的准确性、对公众的潜在影响、煽动仇恨的可能性等等。尽管已经有多个努力来解决主张的核查价值问题,但是系统性地识别这些因素仍然是一个尚未解决的挑战。为此,我们引入了一个新的任务,即细粒度的主张核查价值,它基于所有这些因素,并为识别一个主张是否值得核查提供了可能的人类依据。我们介绍了一个手动注释的大规模 Twitter 数据集 CheckIt,用于细粒度的主张核查价值。我们将我们的数据集与一个统一的方法 CheckMate 进行了基准测试,该方法同时确定一个主张是否值得核查以及导致这种结论的因素。我们将我们提出的系统与几个基准系统进行了比较。最后,我们报告了对结果的彻底分析和人员评估,验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。
Sep, 2023
通过使用FACT-GPT框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型(LLMs)的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的LLMs在主张匹配任务中与更大型的预训练LLMs的性能相媲美,与人工标注结果密切一致。
Oct, 2023
通过收集真实世界众包平台上的大量数据样本,本文分析了数据集的特征并评估了几种代表性真实标签推断算法的有效性,为跟踪不同类型任务下工作者的能力随时间变化以及增强在线真实标签推断提供了启示。
Mar, 2024
本研究解决了社交媒体上虚假信息传播迅速,传统事实核查无法及时应对的问题。提出的CROWDSHIELD是一种基于群体智能的早期虚假信息预测方法,通过分析群体对虚假信息的反应及对话中的主张与立场,利用深度Q学习有效捕捉复杂决策空间的特征。实验表明,CROWDSHIELD在宏观F1分数上比十个基线系统表现优越,提升约4%。
Aug, 2024