Jun, 2024

EUvsDisinfo: 检测新闻文章中亲克里姆林宫虚假信息的多语言数据集

TL;DR本研究介绍了 EUvsDisinfo,这是一个可信与虚假信息文章的多语种数据集,与亲克里姆林宫主题相关。该数据集直接来源于 EUvsDisinfo 项目专家撰写的辟谣文章。我们的数据集是迄今为止在文章数量和不同语言方面规模最大的资源。它还提供了最广泛的主题和时间覆盖范围。利用这个数据集,我们调查了亲克里姆林宫虚假信息在不同语言中的传播情况,揭示了针对特定虚假信息主题的语言特定模式。我们进一步分析了八年期间话题分布的演变,并注意到在 2022 年乌克兰全面入侵之前,虚假信息内容急剧增加。最后,我们展示了该数据集在多语言环境中训练模型以有效区分虚假信息和可信内容的适用性。