使用 Bioformer 进行 COVID-19 文献的多标记主题分类
该研究提出了一个基于转换器的多标签分类方法,名称为 LITMC-BERT,用于处理生物医学文献中的 LitCovid。与三种基线模型相比,LITMC-BERT 的 micro-F1 和基于样例的 F1 分别比当前最佳结果高 5%和 4%,且只需要 Binary BERT 基线的约 18%的推理时间。
Apr, 2022
该研究报告主要讨论了如何利用生物医学文本挖掘方法自动分配主题标签以便更好地理解和利用 LitCovid 数据库中的 COVID-19 相关文章,以促进疫苗和药物的研发。
Apr, 2022
本研究提出了 Bioformer,一种用于生物医学文本挖掘的紧凑型 BERT 模型,它在 PubMed 文摘和 PubMed Central 全文文章上进行了预训练,使用生物医学词汇表。Bioformer 相对于 BERTBase 减小了 60%的模型大小,且在四种不同的生物医学 NLP 任务中表现出优异的性能,比如问答,文档分类和命名实体识别等。此外,Bioformer 速度比 PubMedBERT 和 BioBERTBase-v1.1 快 2-3 倍。
Feb, 2023
本研究分析了多个多标签文档分类模型在 LitCovid 数据集上的表现,发现在该数据集上微调过的预训练语言模型表现最佳,并探讨了其数据效率和可推广性,同时也提出了未来研究中需要解决的问题,数据和代码均在 GitHub 上可获取。
Jun, 2020
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
我们利用预先训练的 NLP 模型 BERT 和 OpenAI GPT-2,通过对 COVID-19 开放研究数据集中的文本进行摘要来解决研究人员与快速增长出版物之间的差距,我们的模型提供了基于原始文章提取的关键词的抽象和综合信息,我们的工作可以帮助医学界通过提供简要摘要来处理那些摘要尚不可用的文章。
Jun, 2020
该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法,通过处理摘要、正文、标题和关键词等多个部分,以解决多标签文本分类中的语义关系和类别不平衡问题,并在文献综述效率方面取得显著改进。
Apr, 2024
该篇论文描述了在 WNUT-2020 共享任务 2 中开发的针对 COVID-19 英文推文信息识别的系统。研究者团队利用 BERT 模型进行了文本分类任务,并且通过对 BERT 模型的微调以及将其嵌入特征与推文特定特征连接后再采用支持向量机(SVM)进行训练(即 BERT +),并与一组机器学习模型进行性能比较。结果表明 BERT + 模型在 F1-score 评估指标上得分最高为 0.8713。
Dec, 2020
本文描述了我们在 AAAI 2021 英语 COVID-19 假新闻检测共享任务中的系统,我们采用了不同的预训练语言模型,如 BERT,Roberta,Ernie 等等,包括预热,学习率调度和 K 倍交叉验证等各种训练策略,提出了一种集合方法,并在测试集上获得了 0.9859 的加权 F1 分数。我们还对未正确分类的样本进行了广泛的分析。
Jan, 2021