COVID-19 大流行背景下的生物医学文章零样本和小样本分类
本研究分析了多个多标签文档分类模型在LitCovid数据集上的表现,发现在该数据集上微调过的预训练语言模型表现最佳,并探讨了其数据效率和可推广性,同时也提出了未来研究中需要解决的问题,数据和代码均在GitHub上可获取。
Jun, 2020
提出了一种零样本排名算法,它适应于 COVID-19 相关的科学文献,它主要使用了一种预先训练在科学文本上的神经再排序模型 (SciBERT),该方法在 TREC COVID Round 1 排行榜中排名最高且表现优异,在不依赖 TREC-COVID 数据的情况下,该方法的表现优于依赖这些数据的模型,是一种强大的全球危机搜索基线。
Oct, 2020
本文介绍Bioformer团队在BioCreative VII的track 5中多标签主题分类任务中所采用的不同BERT模型(BioBERT、PubMedBERT和Bioformer)对COVID-19文献主题分类的表现。结果表明Bioformer在此任务中的表现优于BioBERT和PubMedBERT,并使用COVID-19文章的预训练进一步提高了性能。
Apr, 2022
发布了一个大规模的带注释 MeSH 索引语料库,其中包含 1342667 篇文献;我们训练了一个综合文档特征和其关联标签的端到端模型,并报道了新的基线。
Apr, 2022
本文研究了如何使用大型语言模型在缺乏公共医疗语料库和注释的情况下,零和少样本学习从临床文本中提取信息,包括跨度识别、令牌级序列分类和关系提取。通过引入新的CAS数据集并进行手动再注释,GPT-3系统在这些任务上明显优于现有的零和少样本基线。
May, 2022
提出了一个新的COVID-19新闻命名实体识别数据集(COVIDNEWS-NER),并通过传递学习提出了一种使用弱标签和强标签结合的方法(CONTROSTER)来改进新出现的主题中的NER。研究表明,使用弱数据形成初始骨干后,调整强数据的方法优于仅针对强数据或弱数据进行训练。在培训过程中,跨领域和领域内弱标签培训的组合非常重要,并且可以克服从单一来源的弱标签训练时出现的饱和现象。
Sep, 2022
本文探讨利用特定领域预训练模型(如CXR-BERT、BlueBERT和ClinicalBERT)替换CLIP的BERT权重以提高CLIP的性能,并针对低流行病的疾病检测评估了具有特定领域预训练的零样本分类模型,虽然替换权重降低了常见病的模型表现,但我们发现预训练文本确实对低流行病疾病具有更好的性能,鼓励未来使用多种不同的训练语言模型的集成模型以实现最大性能。
Jun, 2023
将字典信息结合神经网络架构用于自然语言处理,从在线医学论坛中提取与 COVID-19 相关的多个概念,并通过监督模型在论坛数据上达到90%的宏观 F1 分数,研究表明将小领域字典用于深度学习模型可以改进概念提取任务。
Sep, 2023
该研究解决了医学影像分析中由于数据稀缺导致的临床任务应用限制问题。通过对16种预训练基础模型在19个多样化医学影像数据集上进行全面基准测试,发现BiomedCLIP模型在非常小的训练集上表现最佳,而大型CLIP模型在训练样本稍多时表现优异。此研究强调了为医学应用量身定制基础模型研究的必要性。
Aug, 2024