Oct, 2023

医学应用的多模态 ChatGPT:GPT-4V 的实验研究

TL;DR我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估,实验充分评估了 GPT-4V 在使用包括 11 种模态(如显微镜、皮肤镜、X 射线、CT 等)和十五种感兴趣的对象(如脑、肝脏、肺等)的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明,目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外,我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征,突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。