HuatuoGPT-Vision,面向大规模注入医学视觉知识的多模态语言模型
我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估,实验充分评估了 GPT-4V 在使用包括 11 种模态(如显微镜、皮肤镜、X 射线、CT 等)和十五种感兴趣的对象(如脑、肝脏、肺等)的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明,目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外,我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征,突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。
Oct, 2023
利用 Gemini 和 GPT-4V 模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现 Gemini 在分类任务上略优于 GPT-4V,而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。
Jun, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
利用现有基准数据集对 GPT-4V 的五项任务进行定量分析,并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力,结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果,并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识,但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战,同时在涉及名人和政治家知识的持续发展背景下,会出现错误信息生成的倾向,这反映了已知的幻觉问题,研究结果表明,大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。
Nov, 2023
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了 LLama3-Med 模型,在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能,相比于以前的方法,平均性能提高超过 10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024
通过评估 OpenAI 最新模型 GPT-4V (ision) 在多模态医学诊断领域中的表现,我们发现尽管 GPT-4V 在区分医学图像模态和解剖学方面表现出色,但在疾病诊断和生成综合报告方面面临重大挑战,这表明尽管大型多模态模型在计算机视觉和自然语言处理方面取得了重大进展,但其在有效支持现实医疗应用和临床决策方面仍有很大差距。
Oct, 2023
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了 GPT-4V 在某些评估指标(如 CIDEr)上仍需改进,尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面,虽然 GPT-4V 在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如 BLEU 分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然 GPT-4V 在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023