NAIST COVID：跨语言 COVID-19 Twitter 和 Weibo 数据集

Apr, 2020

NAIST COVID：跨语言 COVID-19 Twitter 和 Weibo 数据集

NAIST COVID: Multilingual COVID-19 Twitter and Weibo Dataset

Zhiwei Gao, Shuntaro Yada, Shoko Wakamiya, Eiji Aramaki

TL;DR本研究旨在推广社交媒体研究对抗 COVID-19 及其他传染病。通过对 COVID-19 微博的量化和定性分析，我们提供了多种处理数据集的方法，并分享了一个多语种社交媒体数据集，供研究人员使用。

Abstract

Since the outbreak of coronavirus disease 2019 (covid-19) in the late 2019, it has affected over 200 countries and billions of people worldwide. This has affected the social life of people owing to enforcements, such as "social distancing" and "stay at home." This has resulted in an in

covid-19 social media data sharing text mining precautions

发现论文，激发创造

GeoCoV19: 一个拥有数亿条多语言 COVID-19 推文和位置信息的数据集

该文介绍了 GeoCoV19—— 一个包含 524 百万条推文的大规模 Twitter 数据集，通过基于地名词典的方法来推断推文的地理位置，而这一大规模、多语言、地理定位的社交媒体数据可以帮助研究社区评估社会如何共同应对这一前所未有的全球危机，以及建立计算方法来应对如识别假新闻，理解社区的知识差距，建立疾病预测和监测模型等挑战。

May, 2020

Weibo-COV: 来自微博平台的大规模 COVID-19 社交媒体数据集

本研究从新浪微博采集了超过 4000 万条由 2019 年 12 月 1 日至 2020 年 4 月 30 日期间发表的 COVID-19 的微博数据，包含了微博级别的信息、互动信息、位置信息和转发网络，以期促进从多个角度开展 COVID-19 研究，并有助于更好地和更快地抑制这一大流行病的传播。

May, 2020

追踪社交媒体上关于 COVID-19 大流行的话题：公共冠状病毒 Twitter 数据集的建立

本文描述了自 2020 年 1 月 22 日以来我们不断收集的多语种新冠状病毒 Twitter 数据集，旨在通过研究在线谈话动态以及科学信息和未经验证的谣言的跟踪等方面，了解这一全球性危机的影响。最终，该数据集可能有助于推动针对这一全球危机的知情决策和有针对性的政策干预。

Mar, 2020

COVID-19 的 Instagram 首个数据集

该研究提供了一个多语种的新冠病毒 Instagram 数据集，旨在帮助研究社区更好地了解 Instagram 这一主要社交媒体中这一现象背后的动态，并帮助研究这一疫情相关的错误信息的传播。

Apr, 2020

COVID-19 的大规模阿拉伯语 Twitter 数据集

本文介绍了 2020 年 1 月 1 日以来首个收集的新冠肺炎疫情下阿拉伯语推特数据集，该数据集可帮助研究人员和决策者研究与该大流行相关的不同社会问题，包括行为变化、信息共享、流言传播等等。

Apr, 2020

一个用于开放科学研究的大规模 COVID-19 推特聊天数据集 -- 一个国际合作项目

本文介绍了一份包含 1 月 1 日至 4 月 4 日之间各地 152 万条与 COVID-19 有关的推文的数据集，为研究社交动态、情感反应等提供支持。

Apr, 2020

Twitter 对话预测每日 COVID-19 确诊病例

本研究利用推特对澳大利亚 COVID-19 病例进行情感分析和话题模型分析，探究社交媒体对疫情预测的作用，结果表明加入社交媒体变量可以改进疫情预测模型的准确性，并发布全球的 MegaGeoCOV 数据集，以帮助更好地理解全球疫情的动态。

Jun, 2022

通过多语言 Twitter 数据集挖掘了解 COVID-19 政策的感知

本研究利用自然语言处理、文本挖掘和网络分析等方法，对与 COVID-19 大流行有关的推文语料库进行分析，识别不同时期应对疫情的常见方法并揭示其差异，同时揭示了从疫情早期开始通过 Twitter 传播信息和谣言的方式。最后，本研究介绍了一个跨多种语言及来源国家采集的推文数据集，有助于为决策者提供应对未来大流行的参考，并可用于获取有价值的知识以缓解当前 COVID-19 大流行。

Mar, 2020

Mega-COV: 一个包含 100 多种语言的十亿规模 COVID-19 数据集

Mega-COV 是一个包含十亿条推特数据的数据集，涵盖 268 个国家，可用于研究 COVID-19 的相关现象。该数据集具有多语言、地理位置等多种特征，并配备了两个强大的模型，可以识别与疫情有关的推特和 COVID-19 的错误信息。

May, 2020

COVID-19 疫情期间欧洲推特跨语言情感分析

本论文使用多语言句子嵌入的神经网络对欧洲 COVID-19 疫情爆发期间收集的 Twitter 消息进行情感分析，并将结果按来源国分离，通过与国家事件的相关性进行时间性发展的相关性分析，研究疫情对人们情绪的影响。

Aug, 2020