大型语言模型在整合社会健康决定因素数据方面的应用:心力衰竭30天再入院预测案例研究
本篇论文旨在开发一个开源的自然语言处理软件包SODA,利用预先训练的Transformer模型提取癌症患者的社会决定因素,并检验其在新的疾病领域(如鸦片类药物使用)的适用性及SDoH的提取效率。研究使用四种基于Transformer的自然语言处理模型提取SDoH,探索改善性能的策略。最好的模型成功地从不同类型的癌症患者中提取了19个SDoH类别。
Dec, 2022
本文介绍了n2c2/UW SDOH挑战的共享任务、数据、参与团队、性能结果以及未来工作的考虑,并探讨了使用自然语言处理技术和预训练的语言模型提取SDOH和临床信息的前景。
Jan, 2023
本研究将公共可用的电子病历数据库MIMIC-IV与健康社会决定因素(SDOH)特征进行关联,调查这些特征对不同病人群体常见电子病历预测任务的影响,发现社区水平的SDOH特征在一般病人群体中无法提高模型性能,但能提高特定亚人群的数据有限模型的公平性;同时,表明SDOH特征对于进行超越保护性属性的算法偏见全面审计至关重要。我们希望新的集成型电子病历-SDOH数据库能够启动有关社区健康与个人结果之间关系的研究,并提供全新的用于研究超越种族、性别和年龄等算法偏见的基准。
May, 2023
本研究使用大型语言模型从电子健康记录中提取社会健康决定因素(SDoH),并研究了合成临床文本对提取这些临床数据的改进作用。最佳模型是经过微调的Flan-T5 XL(宏F1值为0.71)任何SDoH和Flan-T5 XXL(宏F1值为0.70)。这些模型优于ChatGPT系列模型在任务中的零样本和少样本性能,并且对种族/民族和性别描述词的预测不太可能改变,表明较少的算法偏见(p<0.05)。在患者层面上,我们的模型识别出93.8%存在不良SDoH的患者,而ICD-10代码只能覆盖2.0%。我们的方法能有效地从临床记录中提取SDoH信息,相对于GPT的零样本和少样本设置更加优秀。这些模型可以增强关于SDoH的现实世界证据,并帮助识别需要社会支持的患者。
Aug, 2023
该研究介绍了一个新的数据集SDOH-NLI,基于公开可用的笔记,通过将社会和行为决定因素提取为自然语言推理任务,从而帮助健康护理提供者系统地识别提供适当护理和解决差异的机会。
Oct, 2023
针对结构化长期电子健康记录 (EHR) 数据与大型语言模型 (LLMs) 集成时的固有复杂性,本研究调查了像 GPT-4 这样的LLMs 对 EHR 数据的适应性。特别关注其零样本能力,使其能够在并未明确训练的情况下进行预测。通过考虑特定的EHR特征(如单位和参考范围),采用与临床环境相一致的上下文学习策略,我们的寻求方法能够应对 EHR 数据的纵向、稀疏和知识注入的特性。通过对 MIMIC-IV 和 TJH 数据集进行综合实验,证明了我们精心设计的提示框架下,LLMs在关键任务(如死亡率、住院天数和30天再入院率)的预测性能可以提高约35%,在少样本情景中超越了机器学习模型。我们的研究强调了LLMs在提高临床决策能力方面的潜力,尤其是在没有标签数据的紧急医疗情况下,如新发疾病的爆发。可通过此 https URL 获得代码,以便能重现研究结果。
Jan, 2024
利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会,然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力,这是一个常常被低估的挑战。本研究评估了一种在[HOSPITAL]的临床病历上训练的语言模型的性能,并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析,我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后,我们比较了三种方法以提高泛化能力:本地微调(针对特定医院)、实例化增强微调、和基于聚类的微调。结果表明,本地微调是最有效的方法,可以使AUC提高0.25%到11.74%(在数据有限的情况下效果最好)。总体来说,本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解,并改进了它们在更广泛人群中的性能。
Feb, 2024
通过收集来自台湾医院数据库的五年电子健康记录,该研究提出了一个新颖的大型语言多模型(LLMMs)框架,将临床笔记和实验室检测结果的多模态数据结合起来预测慢性疾病风险,观察到将clinicalBERT和PubMed-BERT与注意力融合相结合可以在多类慢性疾病和糖尿病预测中达到73%的准确率,将实验室检测值转化为文本描述后,利用Flan T-5模型可以达到76%的ROC曲线下面积(AUROC),从而显著提高了糖尿病早期预测的准确性。
Mar, 2024
社会卫生决定因素(SDoH)在塑造健康结果方面起着关键作用,特别是在儿科人群中,干预措施可能具有长期影响。本研究提出了一个新的标注语料库,儿科社会历史标注语料库(PedSHAC),并使用经过精细调优和上下文学习方法结合大型语言模型(LLMs)来评估详细的SDoH表征的自动提取。PedSHAC包括从华盛顿大学医院系统的儿科患者的1,260个临床记录中获取的已标注的社会历史部分。采用一个基于事件的标注方案,PedSHAC涵盖了十个不同的健康决定因素,包括生活和经济稳定性、先前的创伤、教育机会、物质使用历史和心理健康,整体标注一致性为81.9 F1。我们提出的精细调整的基于LLM的提取器以78.4 F1的事件参数高性能实现。搭配GPT-4的上下文学习方法在有限的标注示例情况下展现了可靠的SDoH提取的前景,事件触发器的提取性能达到82.3 F1。
Mar, 2024
社会卫生决定因素(SDOH)在患者健康结果中发挥重要作用。我们介绍了一种智能路由系统,通过语言模型路由将医疗记录数据传输到对特定SDOH代码表现出最佳性能的开源LLMs,以实现在一组医学编码子任务中的高性能。
May, 2024