Jan, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

TL;DR该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。