CoVERT: 一种事实核查的生物医学 COVID-19 推文语料库
本文旨在填补社交媒体生物医学领域中技术自动验证和虚假新闻检测方法的研究空白,使用样本与新冠肺炎、麻疹、囊性纤维化和抑郁症相关的推文,开发出一个检测自动化声明的模型,并且在嵌入式分类器和 BERT 转移学习方面进行基础分类实验,分析揭示出笔者所构建的医学推特大多数都包含自动化声明信息。
Apr, 2021
描述了 TweetsCOV19 的基本特征和分析,这是一个公开可用的包含超过 800 万推特的知识库,旨在为大量知识发现任务提供前所未有的数据集。
Jun, 2020
我们提出一个名为 Check-COVID 的新的事实核查基准,用于验证新闻中有关 COVID-19 的声明,需要使用来自科学文章的证据。该基准包含 1,504 个有关冠状病毒的专家注释新闻声明及其句子级证据,并包括从期刊文章中提取(记者写作)和组成(注释器写作)声明。使用针对事实核查的专用系统和 GPT-3.5 进行的实验,分别在这个任务上获得了 76.99 和 69.90 的 F1 分数,揭示了自动进行事实核查的挑战性,表明很重要的是对领域数据的理解和应用。我们的数据和模型在此 https 网址上公开发布。
May, 2023
为使社交媒体上的用户生成内容可以通过现有模型进行事实核查,本文提出了一种利用关联实体信息来压缩含有主题实体、关系和客体实体三元组成的声明式陈述或提取最短包含这些元素的短语的方法,其可提高各种验证模型的性能。
Sep, 2022
本文提出了 Claim Span Identification (CSI) 任务并引入了名为 CURT 的大规模 Twitter 语料库,通过基于 RoBERTa 的适配器 DABERTa 进行实验来对其数据进行基准测试,并提供了细致的误差分析和消融研究来验证该模型的性能,并提供了全面的跨度注释指南以供公共使用。
Oct, 2022
本研究提出了一种检测关于 COVID-19 的应该检查的推文的模型,将深度上下文化文本表示与建模推文的社交背景相结合,以帮助应对社交媒体上的虚假信息和广泛传播的假新闻的问题。
Sep, 2020
该论文介绍了 MET-CoV 数据集的创建,该数据集包含了从社交媒体中收集的 COVID-19 相关推文的医学实体和定向情感。作者使用传统的机器学习模型和最先进的深度学习模型对命名实体识别和定向情感分析任务进行了广泛实验,并发现了改进的空间,这表明这个数据集对于发展更好的医学社交媒体工具和促进计算社会科学研究特别是流行病学方面是一个重要资源。
Sep, 2022
本文介绍了手工注释的一组含有 10,000 条推特的语料库,内容包括 COVID-19 相关的正反测试结果、死亡、拒绝测试、声称的治疗和预防措施等五类事件。这篇文章证明了这个语料库可以支持基于 BERT 的分类器的微调,以自动提取公共报告的事件,并帮助追踪新病毒传播。通过从数百万推文中提取事件,我们还展示了对于复杂问题的高准确度的唯一回答。我们将向研究界公开发布我们的语料库(已移除用户信息)、自动提取模型和相应的知识库。
Jun, 2020
为了更好地理解应对疫情时的危机管理实践,本研究对 Twitter 上 COVID-19 相关的虚假言论的传播、作者和内容进行了探索性研究,收集了自 2020 年 1 月至 7 月中旬以来被 92 个专业事实核查机构证实为虚假或部分虚假的言论,并发现虚假言论比部分虚假言论传播得更快,结果为对当前科学研究的空白提出了建议,同时也提出了对抗 COVID-19 疫情期间社交媒体虚假言论的对策。
May, 2020
在 COVID-19 期间,社交媒体上的虚假信息泛滥,本研究针对巴西的事实核查机构使用一种 Markov-based 的计算方法来识别推文的话题,并揭示了这些机构揭穿的话题在政治和健康危机之间复杂交织的关系。
Dec, 2020