使用 Bioformer 进行 COVID-19 文献的多标记主题分类

Apr, 2022

使用 Bioformer 进行 COVID-19 文献的多标记主题分类

Multi-label topic classification for COVID-19 literature with Bioformer

Li Fang, Kai Wang

TL;DR本文介绍 Bioformer 团队在 BioCreative VII 的 track 5 中多标签主题分类任务中所采用的不同 BERT 模型 (BioBERT、PubMedBERT 和 Bioformer) 对 COVID-19 文献主题分类的表现。结果表明 Bioformer 在此任务中的表现优于 BioBERT 和 PubMedBERT，并使用 COVID-19 文章的预训练进一步提高了性能。

Abstract

We describe bioformer team's participation in the multi-label topic classification task for covid-19 literature (track 5 of BioCreative VII). Topic classification is performed using different →

covid-19 literature topic classification bert models bioformer pretraining

发现论文，激发创造

LitMC-BERT：基于 Transformer 的生物医学文献多标签分类及其在 COVID-19 文献管理中的应用

该研究提出了一个基于转换器的多标签分类方法，名称为 LITMC-BERT，用于处理生物医学文献中的 LitCovid。与三种基线模型相比，LITMC-BERT 的 micro-F1 和基于样例的 F1 分别比当前最佳结果高 5％和 4％，且只需要 Binary BERT 基线的约 18％的推理时间。

Apr, 2022

生物医学文献的多标签分类: BioCreative VII LitCovid 赛道 COVID-19 文献主题注释概述

该研究报告主要讨论了如何利用生物医学文本挖掘方法自动分配主题标签以便更好地理解和利用 LitCovid 数据库中的 COVID-19 相关文章，以促进疫苗和药物的研发。

Apr, 2022

Bioformer：面向生物医学文本挖掘的高效 Transformer 语言模型

本研究提出了 Bioformer，一种用于生物医学文本挖掘的紧凑型 BERT 模型，它在 PubMed 文摘和 PubMed Central 全文文章上进行了预训练，使用生物医学词汇表。Bioformer 相对于 BERTBase 减小了 60％的模型大小，且在四种不同的生物医学 NLP 任务中表现出优异的性能，比如问答，文档分类和命名实体识别等。此外，Bioformer 速度比 PubMedBERT 和 BioBERTBase-v1.1 快 2-3 倍。

Feb, 2023

COVID-19 文献的分类

本研究分析了多个多标签文档分类模型在 LitCovid 数据集上的表现，发现在该数据集上微调过的预训练语言模型表现最佳，并探讨了其数据效率和可推广性，同时也提出了未来研究中需要解决的问题，数据和代码均在 GitHub 上可获取。

Jun, 2020

基于 BERT 模型的 COVID-19 相关推文的虚假新闻检测和情感分析

我们的团队 “techno” 参加了 CERIST'22 共享任务，利用自然语言处理工具和 BERT 预训练语言模型，对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务，并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。

Apr, 2023

COVID-Twitter-BERT：一个用于分析 Twitter 上 COVID-19 内容的自然语言处理模型

该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型，通过对大量 Twitter 上有关 COVID-19 的消息进行预训练，该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30％，特别是在 COVID-19 内容（尤其是来自 Twitter 的社交媒体帖子）的分类中表现更突出，从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。

May, 2020

使用 BERT 和 GPT-2 进行 COVID-19 医疗研究文章的自动文本摘要

我们利用预先训练的 NLP 模型 BERT 和 OpenAI GPT-2，通过对 COVID-19 开放研究数据集中的文本进行摘要来解决研究人员与快速增长出版物之间的差距，我们的模型提供了基于原始文章提取的关键词的抽象和综合信息，我们的工作可以帮助医学界通过提供简要摘要来处理那些摘要尚不可用的文章。

Jun, 2020

利用基于 BERT 的模型推动跨学科研究：通过 SciBERT-CNN 与主题建模的方法

该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法，通过处理摘要、正文、标题和关键词等多个部分，以解决多标签文本分类中的语义关系和类别不平衡问题，并在文献综述效率方面取得显著改进。

Apr, 2024

使用 BERT 对具有信息价值的 COVID-19 推文进行分类的 WNUT-2020 任务 2 的 Dartmouth CS

该篇论文描述了在 WNUT-2020 共享任务 2 中开发的针对 COVID-19 英文推文信息识别的系统。研究者团队利用 BERT 模型进行了文本分类任务，并且通过对 BERT 模型的微调以及将其嵌入特征与推文特定特征连接后再采用支持向量机（SVM）进行训练（即 BERT +），并与一组机器学习模型进行性能比较。结果表明 BERT + 模型在 F1-score 评估指标上得分最高为 0.8713。

Dec, 2020

探索 AAAI 2021 共享任务中的文本转换器: COVID-19 英文虚假新闻检测

本文描述了我们在 AAAI 2021 英语 COVID-19 假新闻检测共享任务中的系统，我们采用了不同的预训练语言模型，如 BERT，Roberta，Ernie 等等，包括预热，学习率调度和 K 倍交叉验证等各种训练策略，提出了一种集合方法，并在测试集上获得了 0.9859 的加权 F1 分数。我们还对未正确分类的样本进行了广泛的分析。

Jan, 2021