MCFEND:面向中文假新闻检测的多源基准数据集
本文针对多领域假新闻检测模型的数据分布及域偏移的挑战,在一个包含 9 个不同领域的测评数据集 Weibo21 上,使用多个领域表征进行融合的领域门控模型 MDFEND,显著提高了多领域假新闻检测性能。
Jan, 2022
使用机器学习分类模型是打击假新闻传播的有效方法,但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集,包括一百万个多个类别的假新闻样本,并通过远程监督进行两种,三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验,证明了 Fakeddits 的多模式和精细分类的重要性。
Nov, 2019
本文提出了一种名为 M$^3$FEND 的框架,通过从多视角建模内容,包括语义、情感和风格等,使用领域记忆库显著改进了领域信息,适应性地聚合多个视角的判别性信息,提高了跨领域假新闻检测的成功率。
Jun, 2022
该论文提出了一种名为 MetaFEND 的端到端假新闻检测框架,将元学习和神经过程方法相结合,有效处理分类信息和修剪不相关的帖子,可以在新出现的事件上快速学习并检测到假新闻。
Jun, 2021
为了理解不同领域的虚假信息,我们引入了一个新颖的多领域知识增强基准,名为 FineFake,它包含 16909 个数据样本,涵盖六个语义主题和八个平台,并提供多模态内容,潜在社会背景,半手动验证的常见知识和超越传统二进制标签的细粒度注释。基于 FineFake,我们还提出了三个具有挑战性的任务,并提出了一个知识增强的领域自适应网络,在各种情况下对 FineFake 进行了广泛的实验证明,为未来的研究提供了准确可靠的基准。整个 FineFake 项目可以在 https://github.com/Accuser907/FineFake 上作为开源资源进行访问。
Mar, 2024
本文介绍了一种利用已经被 fact-check 过的英文新闻数据集,通过建立一个名为 CrossFake 的深度学习框架来识别汉语低資源下的 COVID-19 虚假信息。经实验结果表明,CrossFake 在跨语言环境下的情况下比其他单语和跨语言虚假信息检测器更有效。
Oct, 2021
当前的多模态误信息检测(MMD)方法通常假设每个样本只有一个来源和一种伪造类型,这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题,我们引入了 MMFakeBench,这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源,以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型(LVLMs)的广泛评估。结果表明,当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外,我们提出了一种创新的统一框架,将 LVLM 智能体的逻辑、行动和工具使用能力相结合,显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究,并提供对误信息检测方法的公正评估。
Jun, 2024
社交媒体的迅速增长导致虚假新闻泛滥,因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果,提供了一个多模态事实验证和讽刺新闻数据集,并使用基于多模态关系将社交媒体索求与支持文件进行比较,最终得到 81.82% 的最高 F1 分数。
Jul, 2023
本研究提供了最大的公共数据集,用于自动声明验证,从 26 个英文事实检查网站中收集,标记了真实性,并使用人工专家记者,结果显示自动排名证据页面和预测真实性的新方法胜过所有基线。
Sep, 2019
本研究提出了一种利用社交媒体上的弱标注信号并采用深度神经网络在元学习框架下结合少量干净数据进行训练,以提高虚假新闻的早期检测的方法,实验结果显示该方法可以有效地超越目前的最先进的基准线模型。
Apr, 2020