谎言的时代不好过:俄乌战争、COVID-19 和难民信息识别
本研究介绍 CovidMis20 数据集,该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文,用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测,后者的测试精度优于前者。
Sep, 2022
本研究介绍了一个涉及巴西、印度尼西亚和尼日利亚三个中等收入国家的 COVID-19 疫苗错误信息的多语言数据集。我们采用了两种方法来开发 COVID-19 疫苗错误信息检测模型:领域特定的预训练和使用大型语言模型进行文本增强。我们的最佳错误信息检测模型相较于基准模型在宏 F1 分数上的改进范围从 2.7 到 15.9 个百分点。此外,我们将我们的错误信息检测模型应用于 2020 年至 2022 年期间来自这三个国家的 1900 万条未标记推文的大规模研究,展示了我们数据集和模型在多个国家和语言中检测和分析疫苗错误信息的实际应用。我们的分析结果表明,巴西和印度尼西亚的新冠病例数量的百分比变化与 COVID-19 疫苗错误信息率呈错位的正相关,而这三个国家之间的错误信息率之间存在显著的正相关。
Nov, 2023
通过构建一个数据收集和链接系统(MuMiN-trawl),我们开发了一个公共的虚假信息图数据集(MuMiN),它包含 21 百万条推文,13 千个经过事实检查的声明和 41 种不同语言,为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。
Feb, 2022
本研究使用新闻文章和 Telegram 新闻频道在乌克兰、俄罗斯、罗马尼亚和英语中分析了战争第一个月期间媒体对公众舆论的影响和反映,并提出并比较了两种基于 Transformer 和语言特征的多语言自动化亲俄罗斯宣传识别方法,分析了它们的优缺点,适用于新的流派和语言,并对其用于内容管理的道德问题进行了分析,旨在为针对当前冲突量身定制的管理工具的进一步发展奠定基础。
Jan, 2023
本文通过对超过 2.42 亿条推文的大规模计算分析,对 COVID-19 流言与准确信息的特征进行比较研究,并创建了 COVID-19 的流言分类数据集,研究发现该数据集可提高流言分类的正确率超过 9%。
Apr, 2023
本研究通过人工确认 10,700 个社交媒体帖子和文章的真假,并使用决策树、逻辑回归、梯度提升和支持向量机 (SVM) 等四种机器学习方法将其进行基准测试。结果表明,使用 SVM 可以获得最佳性能,F1-score 为 93.46%。研究样本涉及 COVID-19 疫情下社交媒体中的假新闻和谣言。
Nov, 2020
为了更好地理解应对疫情时的危机管理实践,本研究对 Twitter 上 COVID-19 相关的虚假言论的传播、作者和内容进行了探索性研究,收集了自 2020 年 1 月至 7 月中旬以来被 92 个专业事实核查机构证实为虚假或部分虚假的言论,并发现虚假言论比部分虚假言论传播得更快,结果为对当前科学研究的空白提出了建议,同时也提出了对抗 COVID-19 疫情期间社交媒体虚假言论的对策。
May, 2020
本研究主要通过分析俄罗斯媒体对于俄乌战争期间相关言论(VoynaSlov 数据集)的新闻报道和社交媒体营销信息,揭示了信息操纵的不同策略和媒体效应,研究结果为进一步发展用于应急危机和社科领域的 NLP 模型提供了参考。
May, 2022
针对 COVID-19 在线信息误导问题,本文分析并对比了在 Twitter 上两个竞争性的 COVID-19 信息社区:误导用户和知情用户,并通过网络结构分析、语言模式等方面对他们进行了表征和分类,发现误导社区较为紧密、有组织,并可能存在大量的虚假信息宣传活动,其中大部分误导用户可能是反对疫苗接种者。
Aug, 2020