基于大规模语言与混合自然语言处理模型的医生笔记高通量表型分析

MMMar, 2024

基于大规模语言与混合自然语言处理模型的医生笔记高通量表型分析

High Throughput Phenotyping of Physician Notes with Large Language and Hybrid NLP Models

Syed I. Munzir, Daniel B. Hier, Michael D. Carrithers

TL;DR用大型语言模型和混合 NLP 模型（将词向量与机器学习分类器相结合）高准确度地进行医生笔记的高通量特征化，从而让大型语言模型成为医生笔记的高通量深度特征化的首选方法。

Abstract

deep phenotyping is the detailed description of patient signs and symptoms using concepts from an ontology. The deep phenotyping of the numerous physician notes in electronic health records requires →

deep phenotyping high throughput methods language model hybrid nlp model physician notes

发现论文，激发创造

一种大型语言模型优于其他计算方法对医生笔记的高通量表型

本研究比较了高通量表型化的三种计算方法：基于生成式人工智能的大型语言模型（LLM），利用深度学习进行跨度分类的自然语言处理（NLP）方法，以及将词向量与机器学习相结合的混合方法。采用 GPT-4（一种大型语言模型）的方法表现出卓越性能，表明大型语言模型可能成为医师笔记的高通量表型化的首选方法。

Jun, 2024

改进上下文化神经语言模型的临床笔记表型描述

通过对临床记录进行语义学分析，可以帮助精确地提取出患者的病情，进而为医疗决策和医疗档案二次利用提供支持；本研究探索了几种基于 BERT 模型的病情提取机制，避免了传统的手工规则的繁琐操作，实验结果表明这种机制在病情识别上具有较高的性能，可适用于医学领域的实际应用。

Oct, 2019

对于患者表型，规则模型和深度学习模型的比较

本文研究了深度学习技术在自然语言处理中是否可以有效用于患者表型特征提取和预测，并与传统 NLP 方法进行比较。结果表明，卷积神经网络是一种性能优良且易解释的深度学习方法，可以有效提高患者表型预测的性能，降低注释复杂度，并自动学习与每个患者表型相关的短语。

Mar, 2017

基于电子病历的计算表型自然语言处理

文章综述了自然语言处理在电子健康记录领域的应用，重点介绍了计算表型学方法，包括基于关键词搜索和基于规则的系统等算法，以及监督式机器学习模型、深度学习和非监督式学习等最近受到关注的算法。同时文章指出在病历中特征关系的处理、模型可解释性和推广性等方面仍有待解决的问题。

Jun, 2018

GPT 模型对于表型概念识别的评估

临床深度表型化和本体概念建模在罕见疾病患者的诊断和护理协调计划中起着重要作用。本研究使用大型语言模型评估了最新的生成预训练变压器模型在临床深度表型化的性能，结果表明这些模型在临床环境中的使用存在问题。

Sep, 2023

二阶段联邦表型分类和患者表征学习

我们开发了一种基于联邦自然语言处理的方法，能够利用来自不同医院或诊所的临床笔记，改进特定临床任务的质量，并促进整个医疗保健系统的知识进步。这是联邦机器学习在临床自然语言处理中的第一次应用。

Aug, 2019

利用大型语言模型增强临床笔记中的表型识别：PhenoBCBERT 和 PhenoGPT

通过基于 Transformer 结构的大型语言模型（LLMs），我们可以自动检测临床表型术语，包括未记录在 HPO 中的术语。在本研究中，我们开发了两种模型：PhenoBCBERT，一种基于 BERT 的模型，利用 Bio+Clinical BERT 作为其预训练模型，和 PhenoGPT，一种基于 GPT 的模型，可以从各种 GPT 模型（包括开源版本和专有版本）初始化。我们发现我们的方法可以提取更多的表型概念，包括 HPO 未描述的新概念。我们还对生物医学文献进行了案例研究，说明如何识别和提取新的表型信息。我们在多个方面比较了基于 BERT 和基于 GPT 的模型进行表型标记，包括模型架构、内存使用、速度、准确性和隐私保护。此外，我们还讨论了将否定步骤和 HPO 规范化层添加到 Transformer 模型中，以改进 HPO 术语标记。总之，PhenoBCBERT 和 PhenoGPT 可以实现从临床记录和生物医学文献中自动发现表型术语，从而促进自动的下游任务，以获得关于人类疾病的新的生物学见解。

Aug, 2023

基于本体和弱监督的临床笔记罕见病识别

本文提出了一个基于本体和弱监督的方法，使用最近的 BERT 上下文表示进行文本表型处理，该方法可用于从临床笔记中识别出以往难以识别的罕见疾病的患者角色，无须领域专家的注释数据，可提高不少于 30% 至 50% 的精确度。

May, 2022

基于检索增强生成的大型语言模型在零样本疾病表型分类中的应用

通过使用零射击的基于大型语言模型的方法，结合检索增强生成和 MapReduce 技术，我们在肺动脉高压领域展示了一种有效识别疾病的方法，该方法在诊断中明显优于医生逻辑规则（F1 分数为 0.62 比 0.75），从而有望增强罕见疾病群体的识别和推动临床研究以及关注空缺的发现。

Dec, 2023

临床表型跨语言知识迁移

研究跨语言知识转移策略用于非英语且领域内数据小的诊所中，证明了基于翻译方法与特定领域编码器相结合以及跨语言编码器和适配器可以超越当前最先进的方法。该研究发现这些策略对于分类罕见表型尤其有效，并建议根据具体情况选择使用哪种方法。结果表明，使用多语言数据可以改善临床表型模型并弥补数据稀缺。

Aug, 2022