TG-LMM：通过文本引导的大型多模态模型提高医学影像分割精度

Sep, 2024

TG-LMM：通过文本引导的大型多模态模型提高医学影像分割精度

TG-LMM: Enhancing Medical Image Segmentation Accuracy through Text-Guided Large Multi-Modal Model

Yihao Zhao, Enhao Zhong, Cuiyun Yuan, Yang Li, Man Zhao...

TL;DR本研究针对现有医学影像分割方法在利用先验知识方面的不足，提出了一种新颖的文本引导大型多模态模型TG-LMM。该模型通过整合专家对器官空间位置的描述，结合预训练的图像和文本编码器，显著提高了分割精度，并在多个权威医学影像数据集上表现优异，超越了现有方法。

Abstract

We propose TG-LMM (Text-Guided Large Multi-Modal Model), a novel approach that leverages textual descriptions of organs to enhance Segmentation accuracy in medical images. Existing medical image →

发现论文，激发创造

医学图像分割的深度学习：技巧、挑战和未来方向

通过实验探索介绍了医学图像分割中实现的技巧与相应的phase（模型预训练、数据预处理、数据增强、模型实现、模型推断和结果后处理），强调技巧对模型性能的影响并构建插拔式组件MedISeg仓库，提供全面而实用的医学图像处理指导并解决小数据集学习、类不平衡学习、多模态学习以及域适应等未来挑战。

Sep, 2022

基于视觉-语言模型在医学图像分割中的迁移学习探索

利用多模态视觉语言模型从图像描述和图像中捕捉语义信息，实现对多样化医学图像的分割，并评估其在医学领域的迁移性和基于生成提示的模型性能变化。

Aug, 2023

DG-TTA: 领域泛化和测试时间适应的医学图像分割

我们提出将领域泛化和测试时间适应相结合的方法，在未见目标领域中重新使用预训练模型，并通过优化模型权重以确保每个未见扫描的高质量分割，以消除当前的数据可用性障碍。

Dec, 2023

一种通用的基于文本提示的医学图像分割模型

本研究中，我们建立了一个可以通过文本提示来在医疗场景中对任意物体进行分割的模型，称之为SAT。我们的主要贡献有三个方面：（一）在数据构造方面，我们整合了多个知识源来构建一个多模态的医学知识树，并通过收集超过11,000个来自31个分割数据集的三维医学图像扫描的大规模分割数据集进行训练，同时对图像扫描和标签空间进行了精确标准化；（二）在模型训练方面，我们提出了一种通用的分割模型，可以通过输入文本形式的医学术语进行提示。我们提出了一种知识增强的表示学习框架以及一系列有效训练策略，结合了大量数据集进行训练；（三）在模型评估方面，我们用只有107M参数的SAT-Nano模型对31个不同的分割数据集进行了分割，使用文本提示，得到了362个类别。我们从身体区域的平均值、类别的平均值和数据集的平均值三个方面对模型进行了全面评估，结果表明与36个专家nnUNets的性能相当，即我们对每个数据集/子集训练nnUNet模型，为31个数据集训练了36个大约有1,000M参数的nnUNets模型。我们将在本报告中公布所有用到的代码和模型，即SAT-Nano，并且我们将在不久的将来提供SAT-Ultra，它将在更多的多样化数据集上使用更大尺寸的模型进行训练。

Dec, 2023

基于语言导向的领域通用医学图像分割

本文提出了一种基于文本信息的显式对比学习机制，通过使用文本编码器特征来学习更强大的特征表示，以增强模型对数据的理解，从而在不同的分割任务中实现了更强大的性能。

Apr, 2024

简化多模态: 使用通用领域大型语言模型在放射学中解决多模态挑战的单模态方法

在本文中，我们介绍了MID-M这一创新框架，利用通用领域的大规模语言模型（LLM）的上下文学习能力，通过图像描述来处理多模态数据，其在性能上与任务特定的精调LLMs和其他通用领域的LLMs相当或更为出色，无需广泛域特定训练或多模态数据的预训练，参数更少，突出了利用通用领域LLMs进行领域特定任务的潜力，并为传统LMM发展提供了可持续和经济高效的替代方案。此外，MID-M对于数据质量问题的稳健性证明了其在实际医学领域应用中的实用性。

Apr, 2024

利用LLM中的任务特定知识进行半监督三维医学图像分割

LLM-SegNet通过利用大型语言模型将任务特定知识融入我们的协作训练框架中，从而有效地利用无标注数据进行学习，最终达到更高效的分割效果。此外，为了进一步减少错误分割，我们提出了一种统一分割损失函数，它不仅优先考虑模型在前景和背景像素预测上的自信程度高的区域，还能有效地处理模型对预测缺乏高置信度的区域。实验证明LLM-SegNet相比最先进的模型在公开数据集上表现出更出色的性能，并进行了多项消融研究以证明LLM-SegNet所利用的各种模块和损失函数的有效性。

Jul, 2024

语言引导的尺度感知医学图像分割器用于医学图像引导分割

本研究针对传统医学图像分割方法在特定病灶识别中的不足，提出了一种新的医学图像引导分割任务（MIRS）。通过引入语言引导尺度感知医学分割器（LSMS），结合了尺度感知视觉-语言注意模块和全尺度解码器，显著提升了病灶定位和分割的准确性。实验结果表明，LSMS在多种数据集上的表现优于现有方法，且计算成本更低。

Aug, 2024

语言引导的尺度感知医学图像参考分割器

本研究针对传统医学图像分割方法在诊断和治疗中特定病灶识别不足的问题，提出了一种新的医学图像参考分割任务（MIRS）。通过引入语言引导尺度感知医学分割器（LSMS），本文采用了尺度感知视觉-语言注意模块和全尺度解码器，显著提升了对病灶的定位与分割准确性，并构建了参考肝病变分割（RefHL-Seg）数据集以验证方法的有效性。该研究为医学图像分割提供了新的视角和更高的效率。

Aug, 2024

MedVisionLlama：利用预训练大语言模型层增强医学图像分割

本研究解决了医学图像分割中的性能提升问题，创新性地将预训练的大语言模型变换器块融入医学图像分割的视觉变换器模型中。实验结果显示，该模型的Dice分数从0.74提高到0.79，表明大语言模型在医疗图像分割中的潜力，能显著提高模型的准确性和鲁棒性。

Oct, 2024