揭示全球叙事:一个关于俄乌冲突新闻媒体的多语言 Twitter 数据集
研究表明,社交网络在危机期间扮演了重要的信息交流角色,可反映大规模公众舆论和情感,同时也可用于研究不同实体所采用的宣传舆论工具及其传播效果。作者提供了 2022 年俄乌危机期间 Twitter 数据集,包含 1.6 万条推文,时间跨度为危机的首个星期。
Mar, 2022
本研究使用基于 BERT 的模型分析推特上关于俄乌战争的观点和情感,采用邻域平均法模拟和聚类各国家时间序列,并提供有关公众对此冲突看法的有价值的见解。
Jan, 2023
本研究使用新闻文章和 Telegram 新闻频道在乌克兰、俄罗斯、罗马尼亚和英语中分析了战争第一个月期间媒体对公众舆论的影响和反映,并提出并比较了两种基于 Transformer 和语言特征的多语言自动化亲俄罗斯宣传识别方法,分析了它们的优缺点,适用于新的流派和语言,并对其用于内容管理的道德问题进行了分析,旨在为针对当前冲突量身定制的管理工具的进一步发展奠定基础。
Jan, 2023
本研究构建了一个新的数据集 MiDe-22,包括 5,284 条英文推文和 5,064 条土耳其推文,涵盖了包括俄罗斯 - 乌克兰战争、COVID-19 疫情和难民等几个最近事件,并提供了推文的用户参与度。研究提供了详细的数据分析和实验结果,并对误信息检测进行了基准评估。
Oct, 2022
社会媒体数据的情感分析是一个新兴领域,具有广泛的应用。本研究开发了一个情感分析模型,用于分析全球冲突场景下的社交媒体情感,尤其是推特。为了建立我们的研究实验,我们在推特上确定了一起最近的全球争端事件,并收集了大约 31,000 条筛选后的推文,以分析全球人们的情感。
Nov, 2023
该文介绍了 GeoCoV19—— 一个包含 524 百万条推文的大规模 Twitter 数据集,通过基于地名词典的方法来推断推文的地理位置,而这一大规模、多语言、地理定位的社交媒体数据可以帮助研究社区评估社会如何共同应对这一前所未有的全球危机,以及建立计算方法来应对如识别假新闻,理解社区的知识差距,建立疾病预测和监测模型等挑战。
May, 2020
本研究介绍了 EUvsDisinfo,这是一个可信与虚假信息文章的多语种数据集,与亲克里姆林宫主题相关。该数据集直接来源于 EUvsDisinfo 项目专家撰写的辟谣文章。我们的数据集是迄今为止在文章数量和不同语言方面规模最大的资源。它还提供了最广泛的主题和时间覆盖范围。利用这个数据集,我们调查了亲克里姆林宫虚假信息在不同语言中的传播情况,揭示了针对特定虚假信息主题的语言特定模式。我们进一步分析了八年期间话题分布的演变,并注意到在 2022 年乌克兰全面入侵之前,虚假信息内容急剧增加。最后,我们展示了该数据集在多语言环境中训练模型以有效区分虚假信息和可信内容的适用性。
Jun, 2024
本研究提出了一种系统的叙述性发现框架,通过改变点检测、语义角色标注(SRL)和叙事片段的自动聚合来解决大规模文本下叙述性的提取,并在两个 Twitter 语料库中评估了我们的模型,结果表明我们的方法可以恢复相应于重大事件的主要叙述转变。
Jul, 2023