May, 2020
Mega-COV: 一个包含 100 多种语言的十亿规模 COVID-19 数据集
Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19
Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Dinesh Pabbi, Kunal Verma...
TL;DRMega-COV 是一个包含十亿条推特数据的数据集,涵盖 268 个国家,可用于研究 COVID-19 的相关现象。该数据集具有多语言、地理位置等多种特征,并配备了两个强大的模型,可以识别与疫情有关的推特和 COVID-19 的错误信息。