Aug, 2024

胃肠病学中的视觉-语言和大语言模型表现:GPT、Claude、Llama、Phi、Mistral、Gemma和量化模型

TL;DR本研究评估了大语言模型(LLMs)和视觉语言模型(VLMs)在胃肠病学中的医学推理表现,解决了现有模型在视觉数据整合方面的挑战。研究发现,尽管LLMs在医学推理中具有较高的零-shot性能,但VLM在处理图像相关问题时表现不佳,特别是在使用模型生成的图像描述时。该研究为模型配置的优化和模型类型的选择提供了重要的指导。