Dec, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

TL;DR本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍(MCI)的患者的能力,并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求,突显了将大型语言模型应用于医疗诊断的潜力,前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性,从而提高大型语言模型在医疗决策中的可信度。