多方面医学图像解读的通用学习器

May, 2024

多方面医学图像解读的通用学习器

A Generalist Learner for Multifaceted Medical Image Interpretation

Hong-Yu Zhou, Subathra Adithan, Julián Nicolás Acosta, Eric J. Topol, Pranav Rajpurkar

TL;DR提出了一种名为 MedVersa 的医学图像解释通用学习器，通过利用大型语言模型作为可学习的协调器，支持视觉和语言监督学习以及多模态输入，在医学图像解释领域得到了最先进的性能，在临床决策辅助方面具有潜力。

Abstract

Current medical artificial intelligence systems are often limited to narrow applications, hindering their widespread adoption in clinical practice. To address this limitation, we propose medversa, a generalist le

medical artificial intelligence systems medversa multimodal inputs medical image interpretation clinical decision-making

发现论文，激发创造

迈向通用的生物医学人工智能

医疗中存在多模态的数据，需要基于多模态的数据编码、整合和解释的通用生物医学人工智能系统可以应用于从科学发现到医疗传递等多方面。为了开发这些模型，首先我们整理出一个新的多模态生物医学基准数据集，其中包括 14 个多样化的任务。然后我们引入了 Med-PaLM M，一个大型多模态生成模型，可以灵活地编码和解释临床语言、影像学和基因组学等生物医学数据，其在所有基准任务上的性能优于专家模型，并具备了零样本泛化、任务间正向迁移学习和零样本医学推理等特点。我们还对模型生成的胸部 X 射线报告进行了边际排名，默认情况下医生与 Med-PaLM M 报告相比在 40.50% 的情况下更青睐后者，这表明其具备潜在的临床效用。该研究为通用生物医学人工智能系统的开发提供了一个里程碑。

Jul, 2023

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

GigaPevt: 多模式医疗助理

通过结合大型语言模型的对话能力和专门的医学模型，本文提出了 GigaPevt 医学助手，解决了构建智能高效的医学助手的困难性问题，并在对话质量和指标表现上取得了显著的优势，问答任务的准确度提高了 1.18%。

Feb, 2024

Gemini 模型在医学领域的能力

Gemini 模型在医学应用领域的卓越表现面临着挑战，要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini，一类在医学领域具有高度实用性的多模态模型，能够无缝地使用网络搜索，并可以通过定制编码器高效地适应新的模态特征。在 14 个医学基准测试中，Med-Gemini 取得了新的最佳性能，超过了 GPT-4 模型系列，并在多模态基准测试中取得了相对较大的提升。该研究通过突破先前的方法，在长期匿名健康记录和医学视频问答方面展示了 Med-Gemini 的长语境能力和非凡性能，并在医学文本摘要等任务上超越人类专家。尽管在这个安全关键领域中，需要进一步的严格评估，但我们的结果提供了 Med-Gemini 潜力的有力证据。

Apr, 2024

面向临床辅助基于成像的生物医学应用的多模态机器学习

机器学习在医疗人工智能系统中的应用，从传统和统计方法转向深度学习模型甚至最近的生成模型。近年来，发现了支持多模态数据集成的广泛可用的深度学习架构，尤其是针对图像的。将多种模态融入到这些模型中是一个蓬勃发展的研究课题，提出了独特的挑战。本文讨论了针对医学基于图像的临床决策支持模型的多模态人工智能的五大挑战（表示、融合、对齐、翻译和协同学习），并调查了近期解决这些挑战的方法。我们最后讨论了该领域的未来，并提出了在成功的临床模型及其在临床环境中的转化方面应进一步阐明的方向。

Nov, 2023

MGI: 基因组和医学影像的多模态对比预训练

提出了一种多模态预训练框架，通过整合基因组学和医学图像数据，在肿瘤分割任务中优于相关方法。

Jun, 2024

医疗视觉通才：在背景下统一医学图像任务

本研究介绍了医学视觉通用模型（MVG），它是第一个能够在统一的图像生成框架内处理各种医学图像任务的基础模型，包括跨模态合成、图像分割、降噪和修复等。通过将这些任务作为图像生成过程，在参考图像 - 标签对和输入图像的条件下实现灵活统一各种任务的方法，并结合蒙版图像建模和自回归训练的混合方法，以获得最稳健的性能。我们建立了第一个全面的通用医学视觉基准，涵盖了 13 个数据集和四种成像模态（CT、MRI、X 光和微超声），结果表明 MVG 具有优异的性能，在各种医学成像任务中表现优于现有的视觉通用模型，并且 MVG 在更多样化任务的训练下表现出可扩展性强，甚至在只有少量特定任务样本的情况下也能适应未见过的数据集。

Jun, 2024

主动协作框架：零样本多模态医学推理的查询、交互和集成

我们提出了一个多模态医疗协作推理框架 MultiMedRes，通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题，并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。

May, 2024