医学影像中多模态大型语言模型的实用性初探

Jun, 2024

医学影像中多模态大型语言模型的实用性初探

An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging

Sulaiman Khan, Md. Rafiul Biswas, Alina Murad, Hazrat Ali, Zubair Shah

TL;DR利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Abstract

Recent developments in multimodal large language models (MLLMs) have spurred significant interest in their potential applications across various medical imaging domains. On the one hand, there is a temptation to use these generative models to synthesize realistic-looking medical image

multimodal large language models medical image analysis synthetic image data gemini gpt-4v

发现论文，激发创造

Gemini 对 GPT-4V：基于定性案例的视觉 - 语言模型初步比较与结合

这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现 GPT-4V 以精准简洁的回答著称，而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

Gemini 在医学院：探索多模态大型语言模型在医学挑战问题和幻觉上的能力

对大型语言模型在医疗保健行业的潜在价值进行了全面评估，发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可，但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感，需要谨慎部署。为提高性能，采用提示策略，并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。

Feb, 2024

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

评估基于生成式的大型多模态模型与基于微调的视觉转换器在基于图像的安全应用中的功效

研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果，发现 Gemini-pro 在准确性和可靠性方面存在明显差异，而精调的 ViT 模型在两个任务上表现出色，达到近乎完美的性能。

Mar, 2024

从 GPT-4 到 Gemini 和更远：通过四种方式评估 MLLMs 的一般化能力、可靠性和因果关系

通过对专有和开源多模态大语言模型的定性研究，本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解，主要关注文本、代码、图像和视频四个模态，最终目标是提高 MLLM 透明度，发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制，以实现更可靠的多模态下游应用。

Jan, 2024

推理中的雙子座：揭示多模態大語言模型中的常識

Google 的 Gemini 模型通过对 12 个常识推理数据集的综合分析，展现出与其他语言模型和多模态语言模型相竞争的常识推理能力，揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战，强调了提高这些模型的常识推理能力的进一步发展的需求。

Dec, 2023

超越人类视角：大型视觉语言模型在显微镜图像分析中的作用

在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影的能力，但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。

May, 2024