Jan, 2024
评估基于LLM生成的医学图像和症状分析的多模态诊断
Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and
Symptom Analysis
TL;DR该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态LLM评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以GPT-4-Vision-Preview为LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有84%的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于GPT-4-Vision-Preview,还可应用于评估其他LLMs的准确性和实用性,以进一步优化其应用。