利用特定事件和文本片段特征从推文中提取 COVID 事件
社交媒体分析可用于评估 COVID-19 演变和捕捉有助于卫生机构处理疫情的消费者讨论,并将事件提取问题视为利用语言模型中的连续提示进行抽取式问答,显著提高 COVID-19 事件插槽的 F1 分数。
Mar, 2023
本文介绍了手工注释的一组含有 10,000 条推特的语料库,内容包括 COVID-19 相关的正反测试结果、死亡、拒绝测试、声称的治疗和预防措施等五类事件。这篇文章证明了这个语料库可以支持基于 BERT 的分类器的微调,以自动提取公共报告的事件,并帮助追踪新病毒传播。通过从数百万推文中提取事件,我们还展示了对于复杂问题的高准确度的唯一回答。我们将向研究界公开发布我们的语料库(已移除用户信息)、自动提取模型和相应的知识库。
Jun, 2020
以 COVID-Twitter-BERT (CT-BERT) 为基础的变形器模型和微调技术可以有效地识别有用的 COVID-19 相关的 Twitter 帖子,获得了 2020 年 W-NUT 共享任务 2 中排名第三的 F1 分数为 90.94%
Sep, 2020
该篇论文描述了在 WNUT-2020 共享任务 2 中开发的针对 COVID-19 英文推文信息识别的系统。研究者团队利用 BERT 模型进行了文本分类任务,并且通过对 BERT 模型的微调以及将其嵌入特征与推文特定特征连接后再采用支持向量机(SVM)进行训练(即 BERT +),并与一组机器学习模型进行性能比较。结果表明 BERT + 模型在 F1-score 评估指标上得分最高为 0.8713。
Dec, 2020
本文介绍了我们提交的 WNUT-2020 任务 2 的成果:识别信息量大的 COVID-19 英文推文的半监督学习转换器集成模型,它在测试集上取得了 0.9011 的 F1 值(排名第 7),与使用 FastText 嵌入的基准系统相比表现显著提高。
Sep, 2020
本文概述了 WNUT-2020 共享任务,重点是识别有信息含义的 COVID-19 英文推文。文章介绍了 10k 推文语料库的建立、开发和评估各阶段的组织、55 个团队提交的最终系统评估结果,并发现大多数提交结果明显高于 fastText 基线。本研究发现在相关语言数据调整预训练语言模型并进行监督训练可以在这个任务中得到很好的表现。
Oct, 2020
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
本文介绍了使用基于 Transformer 的 COVID-Twitter-BERT(CT-BERT)模型集合的方法来检测英文 COVID-19 虚假新闻的结果和表现。在约 166 个团队中,该方法在第一个共享任务的测试集上取得了最高的加权 F1 得分 98.69。
Dec, 2020
本文提出了 Claim Span Identification (CSI) 任务并引入了名为 CURT 的大规模 Twitter 语料库,通过基于 RoBERTa 的适配器 DABERTa 进行实验来对其数据进行基准测试,并提供了细致的误差分析和消融研究来验证该模型的性能,并提供了全面的跨度注释指南以供公共使用。
Oct, 2022