虚假网站:追踪虚假新闻故事的传播与影响力
研究发现,随着大型语言模型(LLM)的普及,越来越多的新闻网站开始利用它们生成文章,导致合法网站的 factual 准确性不断下降,不法新闻网站可以利用这些 LLM 大量制造虚假信息。通过对 3074 家不良媒体和主流新闻网站的 12.91 百万篇文章进行分类与研究,发现在 2022 年 1 月 1 日至 2023 年 4 月 1 日期间,主流网站的合成新闻文章相对数量增加了 79.4%。而不良网站的增幅则高达 342%,同时还有所关注的是,ChatGPT 发布后,小型网站和不良媒体的合成文章数量急剧增加,但在大型主流新闻网站上并没有相应的增长。最后,社交媒体 Reddit 中的数据显示,社交媒体用户在 2023 年 3 月比 2022 年 1 月与合成文章的互动更多。
May, 2023
通过追踪来自不同文化背景的社交媒体平台,比如中国的微博和日本的 Twitter 等,我们发现虚假新闻在传播的早期阶段就与真实新闻有着不同的传播特征,并且通过识别信息传播的拓扑特性,可以提前检测社交媒体中的虚假新闻。
Mar, 2018
本研究提出了一种系统的叙述性发现框架,通过改变点检测、语义角色标注(SRL)和叙事片段的自动聚合来解决大规模文本下叙述性的提取,并在两个 Twitter 语料库中评估了我们的模型,结果表明我们的方法可以恢复相应于重大事件的主要叙述转变。
Jul, 2023
本研究分析了两个以国家支持为背景的尚未被研究的网站,Reliable Recent News (rrn.world) 和 WarOnFakes (waronfakes.com),它们使用阿拉伯语、中文、英语、法语、德语和西班牙语发布内容。我们描述了获取内容的方法,并对多语言数据集进行了跨站点无监督主题聚类分析。我们还对网页翻译和主题进行了语言和时间分析,并调查了具有虚假发布日期的文章。我们开放了这个包含 14,053 篇文章的新数据集,每篇文章都标注了语言版本和其他元数据,如链接和图片。本文对自然语言处理社区的主要贡献在于提供了这一新颖数据集,使得可以研究虚假信息网络,并进行虚假信息检测工具的训练。
Oct, 2023
本文聚焦于自动识别在线新闻中的虚假内容,首先介绍了用于虚假新闻检测的新颖数据集,描述了收集、注释和验证过程,并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次,本文开展了一系列学习实验以构建准确的虚假新闻检测器,并比较了手动和自动识别虚假新闻的结果。
Aug, 2017
本文提出了一种基于标记时间点过程的灵活表示方式,开发了一种可扩展的在线算法 Curb 来选择应该何时对故事进行事实核查以有效地减少假新闻和误导性信息的传播。
Nov, 2017
我们提出了一个交互式框架来进行新闻媒体分析,结合了基于图的新闻媒体分析模型、预训练的大型语言模型和人类洞察力,能够在社交媒体上快速检测出假新闻和有偏见的媒体,即使在最具挑战性的新闻事件的情境中,其中有未见过的测试数据。
Sep, 2023
本文介绍了利用 snopes.com 收集数据并构建数据集,帮助理解所谓 “假新闻” 传播背后的机制,我们还形式化定义了网络主张以及其可信度和情感,并探讨了情感与可信度之间的关系。
Nov, 2019
本文使用 R 代码研究和可视化现代 fake news 数据集,通过聚类、分类、相关性和各种图表分析及呈现数据,并展示了分类器在分辨真假新闻方面的高效性。
Aug, 2022
本研究报道了在 2010 年美国选举期间发生了一个名为 Twitter-bomb 的有组织虚假信息传播事件,并总结了虚假信息在社交网络中传播的路径;然后以 2016 年美国总统选举为例,描述了虚假信息在 Facebook 等社交媒体上的传播,并就如何提高社区研究对社会问题的影响力展开了讨论。
Mar, 2017