Aug, 2023
利用大型语言模型识别电子健康档案中的社会决定因素
Large Language Models to Identify Social Determinants of Health in
Electronic Health Records
TL;DR本研究使用大型语言模型从电子健康记录中提取社会健康决定因素(SDoH),并研究了合成临床文本对提取这些临床数据的改进作用。最佳模型是经过微调的Flan-T5 XL(宏F1值为0.71)任何SDoH和Flan-T5 XXL(宏F1值为0.70)。这些模型优于ChatGPT系列模型在任务中的零样本和少样本性能,并且对种族/民族和性别描述词的预测不太可能改变,表明较少的算法偏见(p<0.05)。在患者层面上,我们的模型识别出93.8%存在不良SDoH的患者,而ICD-10代码只能覆盖2.0%。我们的方法能有效地从临床记录中提取SDoH信息,相对于GPT的零样本和少样本设置更加优秀。这些模型可以增强关于SDoH的现实世界证据,并帮助识别需要社会支持的患者。