Liar, Liar Pants on Fire”: 一个新的用于假新闻检测的基准数据集
本文提出了一个对抗性基准测试,旨在测试虚假新闻检测器推理现实世界事实的能力,使用 BERT 分类器 fine-tuned 在 LIAR arXiv:arch-ive/1705648 和 Kaggle Fake-News 数据集上,结果显示这两种模型在处理组合语义、词汇关系和修饰符等方面的意思变化上存在失败的情况。这表明虚假新闻检测器需要与其他事实检查方法一起使用。
Jan, 2022
该论文介绍了 POLygraph 数据集,这是一个在波兰进行假新闻检测的独特资源。该数据集包含两个部分:11,360 对新闻文章及相应标签的 “真假” 数据集,以及 5,082 篇新闻文章及相关推文的 “真假评论” 数据集。与现有数据集不同,POLygraph 涵盖了源自文献的多种方法,为假新闻检测提供了全面的资源。数据是通过专家和非专家标注人员的手动注释收集的。该项目还开发了一款使用先进机器学习技术分析数据并确定内容真实性的软件工具。该工具和数据集预计将惠及公共部门机构、出版商和事实核查组织等各种实体。进一步对数据集的研究将促进假新闻检测,可能在其他语言中推动类似模型的实施。该论文侧重于数据集的创建和组成,因此不包括对内容真实性分析软件工具的详细评估,该评估计划在项目的后期进行。
Jul, 2024
本研究利用 GPT-3 模型对 LIAR 数据集进行实验,证明该模型在检测政治虚假陈述方面的效果超越了基于其他方法的现有模型,并在设计提示的情况下尝试零样本学习,取得了接近现有模型的性能。
Jun, 2023
本文提出了一个可用于建立自动检测低资源语言(如孟加拉语)虚假新闻系统的标注数据集,同时提供了数据集分析和基准系统,采用传统语言特征和神经网络技术,为防止虚假信息传播建立技术贡献。
Apr, 2020
本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法,并使用新数据源和添加讽刺文章来改进 FACTIFY1,FACTIFY2 具有 50,000 个新实例数据,包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类,使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65%。
Apr, 2023
这份综合调查是研究人员在进行假新闻检测之旅中不可或缺的资源,通过强调数据集质量和多样性的关键作用,它强调了这些元素对检测模型的有效性和稳健性的重要性。调查详细概述了数据集的关键特征、使用的各种标记系统和可能影响模型性能的普遍偏见。此外,它还涉及关键的伦理问题和最佳实践,为当前可用数据集的情况提供了全面的概述。我们为该领域的贡献进一步丰富,提供了 GitHub 存储库,将公开可访问的数据集汇集到一个单一且用户友好的门户中。这个存储库旨在促进和推动进一步的研究和开发工作,旨在解决普遍存在的假新闻问题。
Jul, 2024
通过扩充大语言模型 (ChatGPT) 的事实核查,重新审视了由人类记者验证的现有虚假新闻数据集,并将扩充的虚假新闻数据集命名为 ChatGPT-FC。我们在评估新闻主题可信度、新闻创作者可信度、时态敏感度和政治框架方面定量分析了人类记者和 LLM 之间的差异和相似之处。我们的研究结果强调了 LLM 作为初步筛选方法的潜力,为减轻人类记者的固有偏见并增强虚假新闻检测提供了有希望的途径。
Dec, 2023
社交媒体的迅速增长导致虚假新闻泛滥,因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果,提供了一个多模态事实验证和讽刺新闻数据集,并使用基于多模态关系将社交媒体索求与支持文件进行比较,最终得到 81.82% 的最高 F1 分数。
Jul, 2023
本文聚焦于自动识别在线新闻中的虚假内容,首先介绍了用于虚假新闻检测的新颖数据集,描述了收集、注释和验证过程,并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次,本文开展了一系列学习实验以构建准确的虚假新闻检测器,并比较了手动和自动识别虚假新闻的结果。
Aug, 2017
本文探讨了现有的假新闻检测方法存在的问题,并提出加入事实核查与语言分析相结合的方法,以应对新闻篡改攻击和真实新闻被误判的情况。作者提出采用众包知识图谱解决新闻事件事实搜集的问题。
Jan, 2019