基于特定领域 ALBERT 的生物医学自然语言处理任务基准测试
提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型 —— 生物医学 ALBERT,并在 8 个不同的医学 NER 基准数据集上展现出极高的性能表现,该模型可供未来研究使用。
Sep, 2020
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
通过全面的实证评估,我们表明在生物医学文本中,受监督的微调方法仍然相关且比通用性的大型语言模型更有效,如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。
Apr, 2024
本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark,该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线,并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。
Jun, 2019
通过从 UMLS 中提取文本序列,该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献,从而将基于图的学习目标与掩码语言预训练相结合,初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。
Jul, 2023
本研究全面调查了大型语言模型(尤其是 BioBERT)在医疗保健领域的应用。它从彻底检查先前的自然语言处理(NLP)方法在医疗保健领域的应用开始,揭示了这些方法面临的限制和挑战。随后,研究探索了将 BioBERT 应用于医疗保健应用的路径,突出了它适用于处理生物医学文本挖掘任务的特定要求。该分析提出了一种系统的方法,用于微调 BioBERT 以满足医疗保健领域的独特需求。该方法包括从各种医疗保健来源获取数据,对诸如识别医疗实体和对其进行分类等任务进行数据注释,以及应用专门为处理生物医学文本中的复杂性而量身定制的预处理技术。此外,本研究还涵盖了与模型评估相关的方面,重点关注医疗保健基准以及在生物医学中自然语言处理、问答、临床文档分类和医疗实体识别等功能的处理。它探索了提高模型可解释性的技术,并验证了其性能与现有的以医疗保健为重点的语言模型相比。本研究全面检查了伦理考虑,特别是患者隐私和数据安全。它强调了将 BioBERT 纳入医疗保健环境的好处,包括增强临床决策支持和更高效的信息检索。然而,它也承认了此集成的障碍和复杂性,包括与数据隐私、透明度、资源需求以及使模型与各种医疗保健领域保持一致的定制需求相关的问题。
Oct, 2023
本研究介绍了一种 BioBART 生成语言模型,适应于生物医学领域,用于对话、摘要、实体链接和命名实体识别等各种自然语言生成任务,预先培训在 PubMed 摘要上的 BioBART 比 BART 性能更出色,并在几个任务上设定了强基线。预处理任务的消融研究表明,句子置换对下游任务有负面影响。
Apr, 2022