使用语言模型预训练的医疗命名实体识别模型

WSDMOct, 2019

使用语言模型预训练的医疗命名实体识别模型

Healthcare NER Models Using Language Model Pretraining

Amogh Kamat Tarcar, Aashis Tiwari, Vineet Naique Dhaimodker, Penjo Rebelo, Rahul Desai...

TL;DR本文介绍了一种从非结构化电子医疗记录中提取结构化信息的方法，该方法通过自然语言处理技术和网络注释工具的组合应用，优化了使用少量训练数据训练的定制命名实体识别模型的性能，并展示了该技术与现有方法相比的优势。研究结果表明，在仅使用 50% 的训练数据的情况下，我们的方法训练的模型的 F1 得分可达到 0.734，而当前流行的方法训练的不带语言模型组件的 spaCy 模型的 F1 得分为 0.704。

Abstract

In this paper, we present our approach to extracting structured information from unstructured electronic health records (EHR) [2] which can be used to, for example, study adverse drug reactions in patients due to

electronic health records natural language processing named entity recognition adverse drug reactions medical health records

发现论文，激发创造

电子病历中的非结构化数据神经自然语言处理：综述

本文综述了当前神经自然语言处理方法在电子病历应用中的广泛运用，包括分类和预测，词嵌入，提取，生成以及其他诸如问答、表型、知识图谱、医学对话、多语言性和可解释性等领域。

Jul, 2021

电子病历中的自然语言处理与医疗决策：一项系统性综述

本研究阐述了自然语言处理技术在电子病历上的应用存在的挑战和限制，以及研究人员使用机器学习、深度学习等技术进行处理和信息提取的相关领域和方法。

Jun, 2023

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

多模态电子健康记录的分层预训练

介绍了一种适用于层次多模式电子健康记录数据的新型、通用的预训练框架 MEDHMP，通过在八个涵盖三个级别的下游任务上的实验结果以及与 18 个基线的比较，证明了该框架的有效性。

Oct, 2023

医疗文本中的少样本命名实体识别

本研究在仅有 10 个注释示例的情况下，通过使用预训练权重、超参数调整、预处理数据、自定义词嵌入和优化词外词汇等 5 个因素改善了命名实体识别任务，并将其 F1 得分从 69.3% 提高到 78.87%。

Nov, 2018

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

利用语言模型预训练改进临床病历的层级病人分类

提出了一种预先训练的层级循环神经网络模型，通过解析最小处理的临床记录，比传统方法更好地处理了医疗信息技术中的出院诊断分类任务，并应用归因技术来确定模型用于进行预测的单词以及其重要性。

Sep, 2019

提高临床试验的患者招募效率：基于提示的学习模型应用

应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数，并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法，该方法也可以应用于其他医学文本。

Apr, 2024

LLMs 加速医疗信息提取的注释

使用大型语言模型（LLMs）结合人类专家的方法，快速生成医疗文本注释的地面真实标签，从而减少人工注释负担并保持高准确性，为医疗健康领域的定制自然语言处理（NLP）解决方案提供了潜力。

Dec, 2023

利用语言模型进行临床风险预测：益处与考虑因素

利用语言模型（LMs）来代表结构化电子健康记录（EHRs），例如诊断历史，可以在各种风险预测任务中提高性能，同时具有少样本学习、处理未知医学概念和适应各种医学词汇等优势，但在使用这些模型时需要谨慎

Nov, 2023