基于特定领域 ALBERT 的生物医学自然语言处理任务基准测试

Jul, 2021

基于特定领域 ALBERT 的生物医学自然语言处理任务基准测试

Benchmarking for Biomedical Natural Language Processing Tasks with a Domain Specific ALBERT

Usman Naseem, Adam G. Dunn, Matloob Khushi, Jinman Kim

TL;DR通过适应生物医学领域 (PubMed、PubMed Central 和 MIMIC-III 数据集) 并微调了 20 个基准数据集上的 6 个任务，我们提出了 BioALBERT，并展示了它在大部分任务中优于现有技术。

Abstract

The availability of biomedical text data and advances in natural language processing (NLP) have made new applications in biomedical nlp possible. Language models trained or fine tuned using domain specific corpora can outperform general models, but work to date in →

biomedical nlp bioalbert domain-specific adaptation albert benchmark datasets

发现论文，激发创造

BioALBERT: 一种简单而有效的预训练语言模型，用于生物医学命名实体识别

提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型 —— 生物医学 ALBERT，并在 8 个不同的医学 NER 基准数据集上展现出极高的性能表现，该模型可供未来研究使用。

Sep, 2020

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

从生物医学文献中进行意图识别和实体提取

通过全面的实证评估，我们表明在生物医学文本中，受监督的微调方法仍然相关且比通用性的大型语言模型更有效，如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。

Apr, 2024

生物医学自然语言处理中的迁移学习：对于十个基准数据集上 BERT 和 ELMo 的评估

本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark，该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线，并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。

Jun, 2019

针对实验室协议的领域特定 BERT 表示进行命名实体识别

通过使用 Bio-Bert 模型进行实体标记，我们的模型在医疗领域的数据集上取得显著的性能提升。

Dec, 2020

UMLS-KGI-BERT: 基于数据中心的转换器中的生物医学实体识别知识集成

通过从 UMLS 中提取文本序列，该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献，从而将基于图的学习目标与掩码语言预训练相结合，初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。

Jul, 2023

医疗领域大型语言模型的分析：以 BioBERT 为案例研究

本研究全面调查了大型语言模型（尤其是 BioBERT）在医疗保健领域的应用。它从彻底检查先前的自然语言处理（NLP）方法在医疗保健领域的应用开始，揭示了这些方法面临的限制和挑战。随后，研究探索了将 BioBERT 应用于医疗保健应用的路径，突出了它适用于处理生物医学文本挖掘任务的特定要求。该分析提出了一种系统的方法，用于微调 BioBERT 以满足医疗保健领域的独特需求。该方法包括从各种医疗保健来源获取数据，对诸如识别医疗实体和对其进行分类等任务进行数据注释，以及应用专门为处理生物医学文本中的复杂性而量身定制的预处理技术。此外，本研究还涵盖了与模型评估相关的方面，重点关注医疗保健基准以及在生物医学中自然语言处理、问答、临床文档分类和医疗实体识别等功能的处理。它探索了提高模型可解释性的技术，并验证了其性能与现有的以医疗保健为重点的语言模型相比。本研究全面检查了伦理考虑，特别是患者隐私和数据安全。它强调了将 BioBERT 纳入医疗保健环境的好处，包括增强临床决策支持和更高效的信息检索。然而，它也承认了此集成的障碍和复杂性，包括与数据隐私、透明度、资源需求以及使模型与各种医疗保健领域保持一致的定制需求相关的问题。

Oct, 2023

BioBART：一种医学生成语言模型的预训练和评估

本研究介绍了一种 BioBART 生成语言模型，适应于生物医学领域，用于对话、摘要、实体链接和命名实体识别等各种自然语言生成任务，预先培训在 PubMed 摘要上的 BioBART 比 BART 性能更出色，并在几个任务上设定了强基线。预处理任务的消融研究表明，句子置换对下游任务有负面影响。

Apr, 2022