EMNLPOct, 2023

分析政府支持的宣传网站:新数据集与语言学研究

TL;DR本研究分析了两个以国家支持为背景的尚未被研究的网站,Reliable Recent News (rrn.world) 和 WarOnFakes (waronfakes.com),它们使用阿拉伯语、中文、英语、法语、德语和西班牙语发布内容。我们描述了获取内容的方法,并对多语言数据集进行了跨站点无监督主题聚类分析。我们还对网页翻译和主题进行了语言和时间分析,并调查了具有虚假发布日期的文章。我们开放了这个包含 14,053 篇文章的新数据集,每篇文章都标注了语言版本和其他元数据,如链接和图片。本文对自然语言处理社区的主要贡献在于提供了这一新颖数据集,使得可以研究虚假信息网络,并进行虚假信息检测工具的训练。