T3D：通过视觉 - 语言预训练实现三维医学图像理解

Dec, 2023

T3D：通过视觉 - 语言预训练实现三维医学图像理解

T3D: Towards 3D Medical Image Understanding through Vision-Language Pre-training

Che Liu, Cheng Ouyang, Yinda Chen, Cesar César Quilodrán-Casas, Lei Ma...

TL;DRT3D 是为高分辨率 3D 医学图像设计的首个 VLP 框架，通过两个文本感知的预训练任务，即文本感知的对比学习和文本感知的图像恢复，从高分辨率的 3D 医学图像中学习 3D 视觉表示，整合临床知识，拥有在器官和肿瘤分割以及疾病分类等任务中显著优于现有 vSSL 方法的潜力。

Abstract

Expert annotation of 3D medical image for downstream analysis is resource-intensive, posing challenges in clinical applications. Visual self-supervised learning (vSSL), though effective for learning visual invariance, neglects the incorporation of domain knowledge from medicine. To incorporate medical knowledge into →

3d medical images visual representation learning t3d vlp framework high-resolution

发现论文，激发创造

基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割

本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证，结果表明该方法在医学图像分割任务中的效果优异。

Jun, 2023

Med3DInsight：利用 2D 多模态大型语言模型增强 3D 医学图像理解

通过结合现有的 3D 图像编码器和 2D MLLMs，并通过设计的 Plane-Slice-Aware Transformer（PSAT）模块，提出了一种名为 Med3DInsight 的新颖预训练框架，用于增强对 3D 医学图像的理解。实验证明，在两个下游分割和分类任务中，包括使用 CT 和 MRI 模式的三个公共数据集以及与十多个基准模型的比较中，Med3DInsight 取得了最先进的性能，并且可以轻松集成到任何当前的 3D 医学图像理解网络中，显著提高其性能。

Mar, 2024

联合自监督图像体表示学习：基于内外对比聚类

本文提出了一种用于医学数据的自监督深度学习的框架，该框架可以联合学习 2D 和 3D 数据，通过用变形注意力机制构建整体特征，并利用预训练语言模型进行掩蔽嵌入预测，提高了 2D Deep-ClusterV2 和 SwAV 的效果，并超越了各种现代 2D 和 3D 自监督学习方法。

Dec, 2022

基于伪三维变换的跨维度医学自监督表示学习

提出了一种基于伪 3D 转换的跨维度自监督学习框架（CDSSL-P3D），该框架可以利用 2D 和 3D 数据进行联合预训练，实现 3D 医学图像分析的跨维度自监督学习。在 13 个下游任务上进行了广泛的实验，结果表明我们的 CDSSL-P3D 表现出色，优于其他先进的自监督学习方法。

Jun, 2024

语言引导下统一的医学图像预训练在共同语义空间中

借助统一的语义空间，UniMedI 提出了一种统一医学图像预训练框架，能够有效地为不同模态的医学图像创建统一的表示，并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。

Nov, 2023

医学影像的 3D 自监督方法

本文提出了针对五种不同的自监督学习方法的三维版本，利用这些技术进行神经网络特征的学习，通过对三维图像的预处理，显著提高语义表示的精确性，从而在医学成像领域实现了数据效率、性能和收敛速度的提升，具有较高的竞争力和可扩展性。

Jun, 2020

MedBLIP: 从 3D 医疗影像和文本数据进行语言 - 图像预训练的自举方法

本文提出了 MedBLIP，这是一个轻量级的 CAD 系统，利用预训练的图像编码器和语言模型，结合维度转换，对医学图像扫描和电子医疗记录中的文本描述进行预训练，最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。

May, 2023

G2D：全球到密集射线学习的视觉 - 语言预训练

该论文提出了一种名为 G2D 的新型 VLP 框架，通过伪分割任务与全局视觉语言对齐相结合，学习得到密集且语义化的图片表示，以在 6 个医学成像任务和 25 种疾病中取得明显改进的性能，尤其在细粒度的语义分割任务中，甚至在只使用 1% 的训练数据进行微调时，也能超过同类模型的性能。

Dec, 2023

Med3D：三维医学影像分析的迁移学习

本研究为培训深度学习算法所需数据量的问题提出了一种解决方案，通过建立医学图像分割数据集和使用 Med3D 进行多域协同训练，可以加速涉及 3D 医学图像的任务的训练收敛速度和提高准确度。

Apr, 2019

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

提出了 3D-VisTA，一个用于 3D 视觉和文本对齐的预训练 Transformer 模型，可轻松适应各种下游任务，通过在 ScanScribe 数据集上进行预训练，获得了在各种 3D-VL 任务上的最先进结果，同时展示了出色的数据效率。

Aug, 2023