Aug, 2023

利用大型语言模型识别电子健康档案中的社会决定因素

TL;DR本研究使用大型语言模型从电子健康记录中提取社会健康决定因素(SDoH),并研究了合成临床文本对提取这些临床数据的改进作用。最佳模型是经过微调的 Flan-T5 XL(宏 F1 值为 0.71)任何 SDoH 和 Flan-T5 XXL(宏 F1 值为 0.70)。这些模型优于 ChatGPT 系列模型在任务中的零样本和少样本性能,并且对种族 / 民族和性别描述词的预测不太可能改变,表明较少的算法偏见(p<0.05)。在患者层面上,我们的模型识别出 93.8% 存在不良 SDoH 的患者,而 ICD-10 代码只能覆盖 2.0%。我们的方法能有效地从临床记录中提取 SDoH 信息,相对于 GPT 的零样本和少样本设置更加优秀。这些模型可以增强关于 SDoH 的现实世界证据,并帮助识别需要社会支持的患者。