Hoaxpedia: 统一的维基百科恶作剧文章数据集

May, 2024

Hoaxpedia: 统一的维基百科恶作剧文章数据集

Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset

Hsuvas Borkakoty, Luis Espinosa-Anke

TL;DR此研究通过系统分析真实与骗局维基百科文章之间的相似性和差异，并引入 Hoaxpedia，一个包含 311 篇骗局文章和语义相似的真实文章的集合，通过多种设置和语言模型进行二元分类实验，结果显示，基于内容的检测维基百科中的欺骗性内容是一个有前景的方向。

Abstract

hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as →

hoaxes disinformation wikipedia hoaxpedia deceitful content

发现论文，激发创造

社交网络中的自动化假新闻检测

该论文介绍了两种基于逻辑回归和布尔众包算法的分类技术，使用用户 “like” 信息对 Facebook 帖子进行分类，能够高准确地区分谣言和非谣言，这些结果表明，信息传播模式的映射可以是自动虚假消息检测系统的有用组成部分。

Apr, 2017

Hoaxy：在线虚假信息追踪平台

介绍了一种收集、检测和分析在线谣言和相关事实核查工作的平台 Hoaxy，并初步分析了一组公共推文中的虚假新闻和事实核查信息的动态，结果发现事实核查内容的分享通常比虚假新闻滞后 10-20 小时，虚假新闻被非常活跃的用户支配，而事实核查则是一种更为基层的活动，这些发现可以帮助研究人员、记者和公众了解真实和虚假新闻分享的动态。

Mar, 2016

自动检测虚假新闻

本文聚焦于自动识别在线新闻中的虚假内容，首先介绍了用于虚假新闻检测的新颖数据集，描述了收集、注释和验证过程，并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次，本文开展了一系列学习实验以构建准确的虚假新闻检测器，并比较了手动和自动识别虚假新闻的结果。

Aug, 2017

Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

本文介绍了 Wiki-Reliability 数据集，该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的，主要应用于内容可靠性预测的机器学习和信息检索算法的研究。

May, 2021

互联网索赔数据集及其情感与可信度比较

本文介绍了利用 snopes.com 收集数据并构建数据集，帮助理解所谓 “假新闻” 传播背后的机制，我们还形式化定义了网络主张以及其可信度和情感，并探讨了情感与可信度之间的关系。

Nov, 2019

伪造假新闻用于真假新闻检测：具有宣传性训练数据生成

提出一种利用自我批评序列训练和宣传技巧生成更接近人类写作的文章，并创建了一份新的虚假新闻检测训练数据集 PropaNews，结果表明，使用 PropaNews 训练的检测器比使用现有方法生成的数据训练的检测器在检测人类撰写的虚假信息方面的准确性提高了 7.3％至 12.0％。

Mar, 2022

寻找可信新闻

本篇论文研究了如何在社交媒体中找出虚假新闻。作者提出了基于语言学、可信度、语义等各种特征来自动识别虚假新闻的方法，并使用三个不同的测试集测试了该方法，在高精度的情况下可以准确地区分真实新闻和虚假新闻。

Nov, 2019

假新闻检测：数据见真章！

这份综合调查是研究人员在进行假新闻检测之旅中不可或缺的资源，通过强调数据集质量和多样性的关键作用，它强调了这些元素对检测模型的有效性和稳健性的重要性。调查详细概述了数据集的关键特征、使用的各种标记系统和可能影响模型性能的普遍偏见。此外，它还涉及关键的伦理问题和最佳实践，为当前可用数据集的情况提供了全面的概述。我们为该领域的贡献进一步丰富，提供了 GitHub 存储库，将公开可访问的数据集汇集到一个单一且用户友好的门户中。这个存储库旨在促进和推动进一步的研究和开发工作，旨在解决普遍存在的假新闻问题。

Jul, 2024

不可靠新闻检测数据集中的隐性偏见

本文研究了自动检测不可靠新闻的问题和如何创建更可靠的数据集，发现大规模新闻数据集存在选择性偏差和混淆因素，导致模型的表现不稳定，提出了创建更可靠的数据集的建议。

Apr, 2021

虚假新闻文章的连贯性研究

本研究以两个真实的跨领域数据集，分析了假新闻与真新闻的文本连贯性，并借助自然语言处理和数据科学领域的最新方法，提出了三种计算文本连贯性的方法。结果表明，相对于真新闻，假新闻的文本连贯性较低，研究还分析了差异的若干方面，并提出了进一步研究的潜在途径。

Jun, 2019