谎言的时代不好过：俄乌战争、COVID-19 和难民信息识别

Oct, 2022

谎言的时代不好过：俄乌战争、COVID-19 和难民信息识别

Not Good Times for Lies: Misinformation Detection on the Russia-Ukraine War, COVID-19, and Refugees

Cagri Toraman, Oguzhan Ozcelik, Furkan Şahinuç, Fazli Can

TL;DR本研究构建了一个新的数据集 MiDe-22，包括 5,284 条英文推文和 5,064 条土耳其推文，涵盖了包括俄罗斯 - 乌克兰战争、COVID-19 疫情和难民等几个最近事件，并提供了推文的用户参与度。研究提供了详细的数据分析和实验结果，并对误信息检测进行了基准评估。

Abstract

misinformation spread in online social networks is an urgent-to-solve problem having harmful consequences that threaten human health, public safety, economics, and so on. In this study, we construct a novel

misinformation social networks dataset engagements misinformation detection

发现论文，激发创造

CovidMis20: 使用深度学习模型在 Twitter 推文上检测 COVID-19 的误信息

本研究介绍 CovidMis20 数据集，该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文，用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测，后者的测试精度优于前者。

Sep, 2022

中等收入国家的 COVID-19 疫苗虚假信息

本研究介绍了一个涉及巴西、印度尼西亚和尼日利亚三个中等收入国家的 COVID-19 疫苗错误信息的多语言数据集。我们采用了两种方法来开发 COVID-19 疫苗错误信息检测模型：领域特定的预训练和使用大型语言模型进行文本增强。我们的最佳错误信息检测模型相较于基准模型在宏 F1 分数上的改进范围从 2.7 到 15.9 个百分点。此外，我们将我们的错误信息检测模型应用于 2020 年至 2022 年期间来自这三个国家的 1900 万条未标记推文的大规模研究，展示了我们数据集和模型在多个国家和语言中检测和分析疫苗错误信息的实际应用。我们的分析结果表明，巴西和印度尼西亚的新冠病例数量的百分比变化与 COVID-19 疫苗错误信息率呈错位的正相关，而这三个国家之间的错误信息率之间存在显著的正相关。

Nov, 2023

MuMiN: 一个大规模多语言多模态事实核查的虚假信息社交网络数据集

通过构建一个数据收集和链接系统（MuMiN-trawl），我们开发了一个公共的虚假信息图数据集（MuMiN），它包含 21 百万条推文，13 千个经过事实检查的声明和 41 种不同语言，为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。

Feb, 2022

2022 年俄乌危机微博数据集

本文介绍了 RUW 数据集，该数据集包括了超过 350 万的微博用户帖子和评论，旨在研究在线社交网络在信息提取和误解检测等方面的应用。

Mar, 2022

自动多语言检测报纸和 Telegram 帖子中的亲克里姆林宫宣传

本研究使用新闻文章和 Telegram 新闻频道在乌克兰、俄罗斯、罗马尼亚和英语中分析了战争第一个月期间媒体对公众舆论的影响和反映，并提出并比较了两种基于 Transformer 和语言特征的多语言自动化亲俄罗斯宣传识别方法，分析了它们的优缺点，适用于新的流派和语言，并对其用于内容管理的道德问题进行了分析，旨在为针对当前冲突量身定制的管理工具的进一步发展奠定基础。

Jan, 2023

准确 COVID-19 信息与错误信息的大规模比较研究

本文通过对超过 2.42 亿条推文的大规模计算分析，对 COVID-19 流言与准确信息的特征进行比较研究，并创建了 COVID-19 的流言分类数据集，研究发现该数据集可提高流言分类的正确率超过 9%。

Apr, 2023

打击信息疫情：COVID-19 虚假新闻数据集

本研究通过人工确认 10,700 个社交媒体帖子和文章的真假，并使用决策树、逻辑回归、梯度提升和支持向量机 (SVM) 等四种机器学习方法将其进行基准测试。结果表明，使用 SVM 可以获得最佳性能，F1-score 为 93.46%。研究样本涉及 COVID-19 疫情下社交媒体中的假新闻和谣言。

Nov, 2020

推特上 COVID-19 错信息的探索性研究

为了更好地理解应对疫情时的危机管理实践，本研究对 Twitter 上 COVID-19 相关的虚假言论的传播、作者和内容进行了探索性研究，收集了自 2020 年 1 月至 7 月中旬以来被 92 个专业事实核查机构证实为虚假或部分虚假的言论，并发现虚假言论比部分虚假言论传播得更快，结果为对当前科学研究的空白提出了建议，同时也提出了对抗 COVID-19 疫情期间社交媒体虚假言论的对策。

May, 2020

信息操纵检测中的挑战与机遇：战时俄罗斯媒体的考察

本研究主要通过分析俄罗斯媒体对于俄乌战争期间相关言论（VoynaSlov 数据集）的新闻报道和社交媒体营销信息，揭示了信息操纵的不同策略和媒体效应，研究结果为进一步发展用于应急危机和社科领域的 NLP 模型提供了参考。

May, 2022

利用新型 Twitter 数据集表征 COVID-19 虚假信息社群

针对 COVID-19 在线信息误导问题，本文分析并对比了在 Twitter 上两个竞争性的 COVID-19 信息社区：误导用户和知情用户，并通过网络结构分析、语言模式等方面对他们进行了表征和分类，发现误导社区较为紧密、有组织，并可能存在大量的虚假信息宣传活动，其中大部分误导用户可能是反对疫苗接种者。

Aug, 2020