医疗人工智能中的泛化性能评估

Feb, 2024

Generalization in Healthcare AI: Evaluation of a Clinical Large Language Model

Salman Rahman, Lavender Yao Jiang, Saadia Gabriel, Yindalon Aphinyanaphongs, Eric Karl Oermann...

TL;DR利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会，然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力，这是一个常常被低估的挑战。本研究评估了一种在[HOSPITAL]的临床病历上训练的语言模型的性能，并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析，我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后，我们比较了三种方法以提高泛化能力：本地微调（针对特定医院）、实例化增强微调、和基于聚类的微调。结果表明，本地微调是最有效的方法，可以使AUC提高0.25%到11.74%（在数据有限的情况下效果最好）。总体来说，本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解，并改进了它们在更广泛人群中的性能。

Abstract

Advances in large language models (LLMs) provide new opportunities in healthcare for improved patient care, clinical decision-making, and enhancement of physician and administrator workflows. However, the potenti