Aug, 2023

大型语言模型测量精神功能的能力

TL;DR通过对大语料库(Med-PaLM 2)中明确训练的大型语言模型(LLMs)的能力进行研究,本文证明了这些模型能够在没有经过训练的情况下从病人采访和临床描述中预测精神功能。结果表明,Med-PaLM 2 能够评估多种精神疾病的精神功能,其中以基于标准评估的抑郁症评分的预测性能最强(准确率范围 = 0.80-0.84),与人类临床评定人员无显著差异(t (1,144)=1.20;p=0.23)。结果显示了通用的临床语言模型在根据患者和临床医生的自由描述预测精神风险方面的潜力。