医疗视觉通才：在背景下统一医学图像任务

Jun, 2024

医疗视觉通才：在背景下统一医学图像任务

Medical Vision Generalist: Unifying Medical Imaging Tasks in Context

Sucheng Ren, Xiaoke Huang, Xianhang Li, Junfei Xiao, Jieru Mei...

TL;DR本研究介绍了医学视觉通用模型（MVG），它是第一个能够在统一的图像生成框架内处理各种医学图像任务的基础模型，包括跨模态合成、图像分割、降噪和修复等。通过将这些任务作为图像生成过程，在参考图像 - 标签对和输入图像的条件下实现灵活统一各种任务的方法，并结合蒙版图像建模和自回归训练的混合方法，以获得最稳健的性能。我们建立了第一个全面的通用医学视觉基准，涵盖了 13 个数据集和四种成像模态（CT、MRI、X 光和微超声），结果表明 MVG 具有优异的性能，在各种医学成像任务中表现优于现有的视觉通用模型，并且 MVG 在更多样化任务的训练下表现出可扩展性强，甚至在只有少量特定任务样本的情况下也能适应未见过的数据集。

Abstract

This study presents medical vision generalist (MVG), the first foundation model capable of handling various medical imaging tasks -- such as cross-modal synthesis, image segmentation, denoising, and inpainting -- within a unified →

medical vision generalist image-to-image generation framework cross-modal synthesis hybrid method comprehensive generalist medical vision benchmark

发现论文，激发创造

MedM2G：通过视觉不变性的交叉引导扩散实现医学多模态生成的统一

MedM2G 是一个医疗多模态生成框架，通过统一的模型实现医疗多模态对齐、提取和生成，以及在医疗诊断中提升特定医疗信息和灵活的多模态交互，成功完成了文本到图像、图像到文本和医学模态的统一生成任务，并在 10 个数据集上持续领先于各种最先进的方法。

Mar, 2024

基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割

本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证，结果表明该方法在医学图像分割任务中的效果优异。

Jun, 2023

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

MGI: 基因组和医学影像的多模态对比预训练

提出了一种多模态预训练框架，通过整合基因组学和医学图像数据，在肿瘤分割任务中优于相关方法。

Jun, 2024

针对医学报告生成的通用基础模型的定制

该研究提出了将通用的预训练神经网络模型应用于医学报告生成的方法，并表明对图像的特定编码和一定的参数训练是实现最优结果的关键。

Jun, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

放射报告生成的强化视觉引导网络

通过提出具有全局密集注意力（GIA）模块的医学图像编码器和可视化知识引导解码器（VKGD），我们的研究旨在解决自动放射学报告生成中的多视角推理和多模态信息处理的问题，实现更准确的报告生成。在实验中，我们的方法在 IU X-Ray 和 MIMIC-CXR 两个常用数据集上展现出比其他最先进方法更优越的能力。

Feb, 2024

一种高效的通用模块化视觉模型，通过多任务异构训练实现

我们提出了一种通用视觉模型，采用集成式的训练方式，使其可同时进行多任务，具有较强的泛化能力和模块化特性，并可在保证较小的训练参数、模型参数和计算量的同时，灵活地满足各种下游任务的需求，且适用于不断学习而无需遗忘的情境。

Jun, 2023

InstructGIE: 通向通用图像编辑的探索

一个新的图像编辑框架，通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性，利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力，并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量，同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。

Mar, 2024

使用生成混合增强和自训练的交叉模态肿瘤分割

本文介绍了一种用于肿瘤分割的新型深度学习方法，该方法使用了基于图像转换和 Segementation 的迭代自训练算法以及一种名为 GBA（Generative Blending Augmentation）的数据增强技术，使用 SinGAN 生成模型来使目标肿瘤出现得更加真实，从而提高了分割模型的泛化能力，并在 MICCAI CrossMoDA 2022 演示中的肿瘤分割任务中名列前茅。

Apr, 2023