推进 Gemini 的多模医疗能力

May, 2024

Advancing Multimodal Medical Capabilities of Gemini

Lin Yang, Shawn Xu, Andrew Sellergren, Timo Kohlberger, Yuchen Zhou...

TL;DR通过对 Med-Gemini 的多模态模型进行改进，我们在医学领域开发了几个 Med-Gemini 系列模型，通过二维和三维放射学、组织病理学、眼科学、皮肤科学和基因组学数据的微调，继承了 Gemini 的核心能力，并创立了 AI 基于 X 射线的报告生成的新标准，并在多项医学任务中超越了现有基线模型表现。

Abstract

Many clinical tasks require an understanding of specialized data, such as medical images and genomics, which is not typically found in general-purpose large multimodal models. Building upon Gemini's multimodal models

med-gemini multimodal models medical use report generation image classification

发现论文，激发创造

Gemini 模型在医学领域的能力

Gemini 模型在医学应用领域的卓越表现面临着挑战，要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini，一类在医学领域具有高度实用性的多模态模型，能够无缝地使用网络搜索，并可以通过定制编码器高效地适应新的模态特征。在 14 个医学基准测试中，Med-Gemini 取得了新的最佳性能，超过了 GPT-4 模型系列，并在多模态基准测试中取得了相对较大的提升。该研究通过突破先前的方法，在长期匿名健康记录和医学视频问答方面展示了 Med-Gemini 的长语境能力和非凡性能，并在医学文本摘要等任务上超越人类专家。尽管在这个安全关键领域中，需要进一步的严格评估，但我们的结果提供了 Med-Gemini 潜力的有力证据。

Apr, 2024

Gemini 在医学院：探索多模态大型语言模型在医学挑战问题和幻觉上的能力

对大型语言模型在医疗保健行业的潜在价值进行了全面评估，发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可，但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感，需要谨慎部署。为提高性能，采用提示策略，并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。

Feb, 2024

Gemini: 一系列高能力的多模态模型

介绍了一种新的多模态模型 Gemini 系列，具备对图像、音频、视频和文本的出色理解能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种规模，适用于从复杂推理任务到内存受限的设备使用场景。在广泛的基准测试中，我们最强大的 Gemini Ultra 模型在 32 个基准测试中的 30 个中领先于现有技术水平，特别是在经典考试基准测试 MMLU 中，Gemini 是首个达到人类专家水平的模型，并在我们检验的 20 个多模态基准测试中改进了现有技术水平。我们相信 Gemini 模型在跨模态推理和语言理解方面的新能力将被广泛应用，并讨论了我们在向用户负责地部署这些模型方面的方法。

Dec, 2023

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

MedM2G：通过视觉不变性的交叉引导扩散实现医学多模态生成的统一

MedM2G 是一个医疗多模态生成框架，通过统一的模型实现医疗多模态对齐、提取和生成，以及在医疗诊断中提升特定医疗信息和灵活的多模态交互，成功完成了文本到图像、图像到文本和医学模态的统一生成任务，并在 10 个数据集上持续领先于各种最先进的方法。

Mar, 2024

生成增强三维医学影像

GEM-3D 是一种基于条件扩散模型的新型生成方法，通过将 3D 医学图像分解为掩模和患者信息，从现有数据集中生成不同变化的高质量 3D 医学图像，实现了数据集的增强。

Mar, 2024

MedPix 2.0：一套全面的多模态生物医学数据集用于高级 AI 应用

本文介绍了建立 MedPix 2.0 数据集的整个工作流程，其主要涉及人工智能在医学领域的应用、多模态医学数据集、CT 或 MR 扫描等。同时，还提出了基于 MedPix 2.0 的 CLIP 模型用于扫描分类任务。

Jul, 2024

Mini-Gemini: 挖掘多模视觉语言模型的潜力

通过引入 Mini-Gemini 框架，本论文旨在提升多模视觉语言模型（VLMs）的性能，尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面，进一步挖掘了 VLMs 的潜力，使其能够同时支持图像理解、推理和生成。

Mar, 2024

MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

MedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型，包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性，并在 MIMIC 数据集上的性能超越了基准模型。此外，该研究还介绍了一种创新的文本到 CXR 合成方法，利用了 Stable Diffusion（SD）架构内的指令跟随能力，无需额外参数，使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。

Dec, 2023

推理中的雙子座：揭示多模態大語言模型中的常識

Google 的 Gemini 模型通过对 12 个常识推理数据集的综合分析，展现出与其他语言模型和多模态语言模型相竞争的常识推理能力，揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战，强调了提高这些模型的常识推理能力的进一步发展的需求。

Dec, 2023