揭示全球叙事：一个关于俄乌冲突新闻媒体的多语言 Twitter 数据集

Jun, 2023

揭示全球叙事：一个关于俄乌冲突新闻媒体的多语言 Twitter 数据集

Unveiling Global Narratives: A Multilingual Twitter Dataset of News Media on the Russo-Ukrainian Conflict

Sherzod Hakimov, Gullal S. Cheema

TL;DR本文展示了一个新颖的数据集，该数据集收集并处理了全球各地新闻或媒体公司在社交媒体上发布的推文，旨在帮助研究人员从多个角度研究有关俄乌冲突的全球议论，包括涉及的主体，持有的态度，原始出处，以及事件中不同概念的表现。

Abstract

The ongoing russo-ukrainian conflict has been a subject of intense media coverage worldwide. Understanding the global narrative surrounding this topic is crucial for →

russo-ukrainian conflict global narrative social media dataset researchers

发现论文，激发创造

2022 年俄乌危机 Twitter 数据集

研究表明，社交网络在危机期间扮演了重要的信息交流角色，可反映大规模公众舆论和情感，同时也可用于研究不同实体所采用的宣传舆论工具及其传播效果。作者提供了 2022 年俄乌危机期间 Twitter 数据集，包含 1.6 万条推文，时间跨度为危机的首个星期。

Mar, 2022

2022 年俄乌危机微博数据集

本文介绍了 RUW 数据集，该数据集包括了超过 350 万的微博用户帖子和评论，旨在研究在线社交网络在信息提取和误解检测等方面的应用。

Mar, 2022

俄乌战争：各国情感趋势建模与聚类

本研究使用基于 BERT 的模型分析推特上关于俄乌战争的观点和情感，采用邻域平均法模拟和聚类各国家时间序列，并提供有关公众对此冲突看法的有价值的见解。

Jan, 2023

自动多语言检测报纸和 Telegram 帖子中的亲克里姆林宫宣传

本研究使用新闻文章和 Telegram 新闻频道在乌克兰、俄罗斯、罗马尼亚和英语中分析了战争第一个月期间媒体对公众舆论的影响和反映，并提出并比较了两种基于 Transformer 和语言特征的多语言自动化亲俄罗斯宣传识别方法，分析了它们的优缺点，适用于新的流派和语言，并对其用于内容管理的道德问题进行了分析，旨在为针对当前冲突量身定制的管理工具的进一步发展奠定基础。

Jan, 2023

谎言的时代不好过：俄乌战争、COVID-19 和难民信息识别

本研究构建了一个新的数据集 MiDe-22，包括 5,284 条英文推文和 5,064 条土耳其推文，涵盖了包括俄罗斯 - 乌克兰战争、COVID-19 疫情和难民等几个最近事件，并提供了推文的用户参与度。研究提供了详细的数据分析和实验结果，并对误信息检测进行了基准评估。

Oct, 2022

全球冲突的 Twitter 帖子情感分析

社会媒体数据的情感分析是一个新兴领域，具有广泛的应用。本研究开发了一个情感分析模型，用于分析全球冲突场景下的社交媒体情感，尤其是推特。为了建立我们的研究实验，我们在推特上确定了一起最近的全球争端事件，并收集了大约 31,000 条筛选后的推文，以分析全球人们的情感。

Nov, 2023

GeoCoV19: 一个拥有数亿条多语言 COVID-19 推文和位置信息的数据集

该文介绍了 GeoCoV19—— 一个包含 524 百万条推文的大规模 Twitter 数据集，通过基于地名词典的方法来推断推文的地理位置，而这一大规模、多语言、地理定位的社交媒体数据可以帮助研究社区评估社会如何共同应对这一前所未有的全球危机，以及建立计算方法来应对如识别假新闻，理解社区的知识差距，建立疾病预测和监测模型等挑战。

May, 2020

EUvsDisinfo: 检测新闻文章中亲克里姆林宫虚假信息的多语言数据集

本研究介绍了 EUvsDisinfo，这是一个可信与虚假信息文章的多语种数据集，与亲克里姆林宫主题相关。该数据集直接来源于 EUvsDisinfo 项目专家撰写的辟谣文章。我们的数据集是迄今为止在文章数量和不同语言方面规模最大的资源。它还提供了最广泛的主题和时间覆盖范围。利用这个数据集，我们调查了亲克里姆林宫虚假信息在不同语言中的传播情况，揭示了针对特定虚假信息主题的语言特定模式。我们进一步分析了八年期间话题分布的演变，并注意到在 2022 年乌克兰全面入侵之前，虚假信息内容急剧增加。最后，我们展示了该数据集在多语言环境中训练模型以有效区分虚假信息和可信内容的适用性。

Jun, 2024

航向新闻叙事：媒体偏见分析数据集

媒体偏见分析数据集是一个全面的数据集，涵盖了各种偏见，对检测和分析媒体偏见具有重要价值，可为媒体研究和人工智能领域提供独特的资源。

Nov, 2023

在线讨论中集体叙事位移的发现

本研究提出了一种系统的叙述性发现框架，通过改变点检测、语义角色标注（SRL）和叙事片段的自动聚合来解决大规模文本下叙述性的提取，并在两个 Twitter 语料库中评估了我们的模型，结果表明我们的方法可以恢复相应于重大事件的主要叙述转变。

Jul, 2023