CAT: 坐标解剖学与文本启示的多器官和肿瘤分割

Jun, 2024

CAT: 坐标解剖学与文本启示的多器官和肿瘤分割

CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation

Zhongzhen Huang, Yankai Jiang, Rongzhao Zhang, Shaoting Zhang, Xiaofan Zhang

TL;DR在医学影像领域，现有的可提示分割方法主要考虑文本或视觉提示，但在处理医学图像中的异常情况（如肿瘤）时往往存在一些局限性，因为肿瘤在形状、大小和外观等方面可能存在很大的变异。为了解决医学场景的复杂性和文本或视觉提示的局限性，我们提出了一种新颖的双提示模式，利用视觉和文本提示的互补优势来分割各种器官和肿瘤。具体而言，我们引入了一种创新的模型 CAT，它通过医学领域知识丰富的 3D 裁剪图像生成解剖提示，与富含医学领域知识的文本提示进行配合。该模型采用了基于查询的通用设计，其中提示查询有助于进行掩模预测的分割查询。为了在统一框架内协调两种类型的提示，我们实现了一个 ShareRefiner，它同时改进了分割和提示查询，同时解耦了两种类型的提示。在由 10 个公共 CT 数据集组成的联合培训集上进行训练，CAT 在多个分割任务中展现出卓越的性能。在一组特殊的内部数据集上进行的进一步验证显示了在多个癌症阶段分割肿瘤的显著能力。这种方法验证了协调多模式提示是解决医学领域复杂场景的一种有前途的途径。

Abstract

Existing promptable segmentation methods in the medical imaging field primarily consider either textual or visual prompts to segment relevant objects, yet they often fall short when addressing →

promptable segmentation medical imaging anomalies dual-prompt schema cat model

发现论文，激发创造

基于 3D 全身 CT 扫描的全面、高效和可预警解剖结构分割模型

本研究提出了一种综合且可扩展的 3D SAM 模型，名为 CT-SAM3D，用于全身 CT 分割，通过使用一个（几乎）完全标记的 CT 数据集，建立了一个 3D 可提示的分割模型。我们的模型可以有效地响应更高维度的空间提示，通过减少大规模器官的交互提示工作量，以较少的点击提示显著提高了所有以前基于 SAM 的模型的定量性能。

Mar, 2024

一种通用的基于文本提示的医学图像分割模型

本研究中，我们建立了一个可以通过文本提示来在医疗场景中对任意物体进行分割的模型，称之为 SAT。我们的主要贡献有三个方面：（一）在数据构造方面，我们整合了多个知识源来构建一个多模态的医学知识树，并通过收集超过 11,000 个来自 31 个分割数据集的三维医学图像扫描的大规模分割数据集进行训练，同时对图像扫描和标签空间进行了精确标准化；（二）在模型训练方面，我们提出了一种通用的分割模型，可以通过输入文本形式的医学术语进行提示。我们提出了一种知识增强的表示学习框架以及一系列有效训练策略，结合了大量数据集进行训练；（三）在模型评估方面，我们用只有 107M 参数的 SAT-Nano 模型对 31 个不同的分割数据集进行了分割，使用文本提示，得到了 362 个类别。我们从身体区域的平均值、类别的平均值和数据集的平均值三个方面对模型进行了全面评估，结果表明与 36 个专家 nnUNets 的性能相当，即我们对每个数据集 / 子集训练 nnUNet 模型，为 31 个数据集训练了 36 个大约有 1,000M 参数的 nnUNets 模型。我们将在本报告中公布所有用到的代码和模型，即 SAT-Nano，并且我们将在不久的将来提供 SAT-Ultra，它将在更多的多样化数据集上使用更大尺寸的模型进行训练。

Dec, 2023

使用文本和图像提示进行图像分割

本文提出了一种基于文本或图像提示产生图像分割结果的模型，使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练，该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务，而且可以适应于任何文本或图像提示的二进制分割任务。

Dec, 2021

基于 CLIP 的器官分割和肿瘤检测通用模型

本文介绍了 CLIP-Driven Universal Model 模型，它基于 Contrastive Language-Image Pre-training 学习的文本嵌入，结合分割模型，可以分割 25 个器官和 6 种肿瘤，具有更高的泛化性能和更高的计算效率。

Jan, 2023

SAMCT: 无需劳动的任务指示器提示下，对任何 CT 进行分割

该研究提出了一个强大的基础模型 SAMCT，通过 U-shaped CNN 图像编码器、交叉分支交互模块和任务指示器提示编码器的使用，实现了对医学成像中各种任务的自动化操作，并在相关任务上展示了其相对于现有模型的优越性。

Mar, 2024

通过精细的图像文本对齐和解剖病理促进的医学图像合成

通过细粒度的图像 - 文本对齐和解剖病理提示，我们提出了一种新颖的医学图像合成模型，能够生成高度详细和准确的合成医学图像，我们验证了我们的方法在公共胸部 X 光数据集上的优越性，并展示了我们的合成图像保留准确的语义信息，对各种医学应用具有价值。

Mar, 2024

阿里亚德的线索：使用文本提示来改进胸部 X 射线图像中感染区域的分割

我们提出了一种语言驱动的分割方法，通过改善分割结果来量化肺部疾病的严重程度，这种方法在 QaTa-COV19 数据集上取得了显著的改进效果。

Jul, 2023

PromptUNet: 拟人化交互式医学图像分割

本文针对现有 Prompt 模型在医学图像分割方面的表现较差的问题，将 Prompt-based segmentation 和 UNet 结合起来设计出一种新的医学图像分割模型 ——PromptUNet，并新添了 Supportive Prompts 和 En-face Prompts 等 Prompt 类型，实验结果表明 PromptUNet 在医学图像分割上的精度高于当前主流的 nnUNet、TransUNet、UNetr、MedSegDiff 和 MSA 等方法。

May, 2023

评估基于多种点提示的交互式 3D 医学图像分割的测试时可变性

通过对交互提示的工程化，我们评估了使用不同类型提示的医学图像交互分割模型在测试时间的可变性，以期找到一种简单高效的最佳提示选择方法。

Nov, 2023

增强医学图像分割的基础模型多提示微调技术

我们引入了一种新颖的微调框架，通过批处理基于真实掩蔽的边界框引入批量提示策略，以提高 Segment Anything Model 在医学图像上的性能表现和广泛的分割任务中解决医学图像中常见的复杂性和模糊性。

Oct, 2023