COVID-19 大流行背景下的生物医学文章零样本和小样本分类

Jan, 2022

COVID-19 大流行背景下的生物医学文章零样本和小样本分类

Zero-Shot and Few-Shot Classification of Biomedical Articles in Context of the COVID-19 Pandemic

Simon Lupart, Benoit Favre, Vassilina Nikoulina, Salah Ait-Mokhtar

TL;DR本文探讨使用MeSH词汇信息加强BioBERT表示以适用于零样本/少样本任务，并指出结果表明多任务学习有助于诱导表示中的MeSH层级关系。

Abstract

mesh (Medical Subject Headings) is a large thesaurus created by the National Library of Medicine and used for fine-grained indexing of publications in the biomedical domain. In the context of the covid-19 pandemi

发现论文，激发创造

COVID-19文献的分类

本研究分析了多个多标签文档分类模型在LitCovid数据集上的表现，发现在该数据集上微调过的预训练语言模型表现最佳，并探讨了其数据效率和可推广性，同时也提出了未来研究中需要解决的问题，数据和代码均在GitHub上可获取。

Jun, 2020

SLEDGE-Z: COVID-19文献检索的零样本基准线

提出了一种零样本排名算法，它适应于 COVID-19 相关的科学文献，它主要使用了一种预先训练在科学文本上的神经再排序模型 (SciBERT)，该方法在 TREC COVID Round 1 排行榜中排名最高且表现优异，在不依赖 TREC-COVID 数据的情况下，该方法的表现优于依赖这些数据的模型，是一种强大的全球危机搜索基线。

Oct, 2020

使用Bioformer进行COVID-19文献的多标记主题分类

本文介绍Bioformer团队在BioCreative VII的track 5中多标签主题分类任务中所采用的不同BERT模型(BioBERT、PubMedBERT和Bioformer)对COVID-19文献主题分类的表现。结果表明Bioformer在此任务中的表现优于BioBERT和PubMedBERT，并使用COVID-19文章的预训练进一步提高了性能。

Apr, 2022

MeSHup: 生物医学全文文献索引语料库

发布了一个大规模的带注释 MeSH 索引语料库，其中包含 1342667 篇文献；我们训练了一个综合文档特征和其关联标签的端到端模型，并报道了新的基线。

Apr, 2022

大型语言模型是少样本临床信息提取器

本文研究了如何使用大型语言模型在缺乏公共医疗语料库和注释的情况下，零和少样本学习从临床文本中提取信息，包括跨度识别、令牌级序列分类和关系提取。通过引入新的CAS数据集并进行手动再注释，GPT-3系统在这些任务上明显优于现有的零和少样本基线。

May, 2022

如何应对新兴课题？结合强弱标签进行Covid新闻NER

提出了一个新的COVID-19新闻命名实体识别数据集（COVIDNEWS-NER），并通过传递学习提出了一种使用弱标签和强标签结合的方法(CONTROSTER)来改进新出现的主题中的NER。研究表明，使用弱数据形成初始骨干后，调整强数据的方法优于仅针对强数据或弱数据进行训练。在培训过程中，跨领域和领域内弱标签培训的组合非常重要，并且可以克服从单一来源的弱标签训练时出现的饱和现象。

Sep, 2022

使用领域预训练语言模型提高低患病率胸部病变的零样本检测

本文探讨利用特定领域预训练模型（如CXR-BERT、BlueBERT和ClinicalBERT）替换CLIP的BERT权重以提高CLIP的性能，并针对低流行病的疾病检测评估了具有特定领域预训练的零样本分类模型，虽然替换权重降低了常见病的模型表现，但我们发现预训练文本确实对低流行病疾病具有更好的性能，鼓励未来使用多种不同的训练语言模型的集成模型以实现最大性能。

Jun, 2023

COVID-19 CT扫描和未整理的报告的零样本多标签分类的经验分析

使用未结构化数据和CT扫描进行零样本多标签分类来诊断COVID-19，以改善医学影像分析中的精度和效果。

Sep, 2023

将字典融入神经网络结构从社交媒体中提取COVID-19医疗概念

将字典信息结合神经网络架构用于自然语言处理，从在线医学论坛中提取与 COVID-19 相关的多个概念，并通过监督模型在论坛数据上达到90%的宏观 F1 分数，研究表明将小领域字典用于深度学习模型可以改进概念提取任务。

Sep, 2023

利用基础模型应对数据稀缺：医学影像中少样本与零样本学习方法的基准研究

该研究解决了医学影像分析中由于数据稀缺导致的临床任务应用限制问题。通过对16种预训练基础模型在19个多样化医学影像数据集上进行全面基准测试，发现BiomedCLIP模型在非常小的训练集上表现最佳，而大型CLIP模型在训练样本稍多时表现优异。此研究强调了为医学应用量身定制基础模型研究的必要性。

Aug, 2024