EHRmonize: 使用大型语言模型从电子病例中抽取医学概念的框架
针对结构化长期电子健康记录 (EHR) 数据与大型语言模型 (LLMs) 集成时的固有复杂性,本研究调查了像 GPT-4 这样的 LLMs 对 EHR 数据的适应性。特别关注其零样本能力,使其能够在并未明确训练的情况下进行预测。通过考虑特定的 EHR 特征 (如单位和参考范围),采用与临床环境相一致的上下文学习策略,我们的寻求方法能够应对 EHR 数据的纵向、稀疏和知识注入的特性。通过对 MIMIC-IV 和 TJH 数据集进行综合实验,证明了我们精心设计的提示框架下,LLMs 在关键任务 (如死亡率、住院天数和 30 天再入院率) 的预测性能可以提高约 35%,在少样本情景中超越了机器学习模型。我们的研究强调了 LLMs 在提高临床决策能力方面的潜力,尤其是在没有标签数据的紧急医疗情况下,如新发疾病的爆发。可通过此 https URL 获得代码,以便能重现研究结果。
Jan, 2024
提出了一种名为 REALM 的框架,通过整合多模态电子健康记录(EHR)数据和知识图谱 (KG),利用大型语言模型 (LLM) 编码临床笔记,并使用 GRU 模型编码时间序列 EHR 数据,提取任务相关的医疗实体,并将这些实体与专业标记的外部知识图谱 (PrimeKG) 进行匹配,通过适应性多模态融合网络将提取的知识与多模态 EHR 数据进行整合,最后通过对 MIMIC-III 的死亡率和再入院任务的大量实验,证明了 REALM 框架相比基线模型具有更优异的性能,强调了每个模块的有效性,从而改进了在医疗保健中利用多模态 EHR 数据并弥合了为明智临床预测所必需的细致医疗背景的差距。
Feb, 2024
通过结合医学知识图谱和新颖的图模型 Dr.Knows,我们提出一种创新的方法来提高大型语言模型在自动诊断生成领域的能力,从而消除预训练的需要,提高自动诊断生成的准确性。
Aug, 2023
通过医生评注和认定的方法,我们研究了三种通用大型语言模型(LLMs)在理解和处理真实世界临床笔记中的性能,并发现 GPT-4 整体表现优于其他 LLMs。此外,我们开发了一个全面的定性性能评估框架,旨在验证 LLMs 在处理复杂医学数据方面的能力,并为将来在专门领域的 LLM 评估建立基准。
Jan, 2024
通过对数据集大小、模型大小和使用电子健康记录数据进行 LLM 训练的成本进行分析,在医疗保健机构预算设定下,回答从头开始或从开源模型微调 LLM 的问题以及它们所能负担的最大 LLM 的大小的问题。这种分析为考虑数据规模、计算规模和培训预算提供了一个思考框架。
Aug, 2023
利用语言模型(LMs)来代表结构化电子健康记录(EHRs),例如诊断历史,可以在各种风险预测任务中提高性能,同时具有少样本学习、处理未知医学概念和适应各种医学词汇等优势,但在使用这些模型时需要谨慎
Nov, 2023
EHRAgent1 是一个基于大型语言模型的代理人,通过代码接口实现自主生成和执行复杂临床任务的能力,并结合长期记忆和交互式编码与执行反馈来提高性能。在两个真实世界的电子健康记录数据集上的实验表明,EHRAgent1 相较于最强大的大型语言模型代理人基准表现分别提高了 36.48% 和 12.41%,使得自主代码生成和执行能够以最小限度的演示来处理复杂的临床任务。
Jan, 2024
使用大型语言模型(Flan-T5 XXL)从非结构化电子健康记录(EHR)数据中检索和总结与特定查询相关的论据,较传统信息检索方法更受放射科医生欢迎,但面临 LLMs 产生虚构证据的挑战。然而,模型的信心可能指示 LLMs 是否存在虚构,为解决此问题提供了潜在方法。
Sep, 2023
通过使用零射击的基于大型语言模型的方法,结合检索增强生成和 MapReduce 技术,我们在肺动脉高压领域展示了一种有效识别疾病的方法,该方法在诊断中明显优于医生逻辑规则(F1 分数为 0.62 比 0.75),从而有望增强罕见疾病群体的识别和推动临床研究以及关注空缺的发现。
Dec, 2023
利用大型语言模型 (LLMs) 对临床记录进行动态问答的自然语言接口引入了一种新的方法。我们的聊天机器人通过 Langchain 和基于变压器的 LLMs 实现,允许用户用自然语言查询并从临床记录中获得相关答案。经过利用各种嵌入模型和先进的 LLMs 的实验表明,Wizard Vicuna 具有更高的准确性,尽管计算需求较高。模型优化,包括重量量化,使延迟时间提高了约 48 倍。有希望的结果表明,充分利用临床记录的价值和推进基于 AI 的临床决策的发展还面临一些挑战,如模型幻觉和有限的多样化医疗案例评估。解决这些差距对于释放临床记录的价值和推进基于 AI 的临床决策具有重要意义。
Jan, 2024