T3D:通过视觉 - 语言预训练实现三维医学图像理解
本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证,结果表明该方法在医学图像分割任务中的效果优异。
Jun, 2023
通过结合现有的 3D 图像编码器和 2D MLLMs,并通过设计的 Plane-Slice-Aware Transformer(PSAT)模块,提出了一种名为 Med3DInsight 的新颖预训练框架,用于增强对 3D 医学图像的理解。实验证明,在两个下游分割和分类任务中,包括使用 CT 和 MRI 模式的三个公共数据集以及与十多个基准模型的比较中,Med3DInsight 取得了最先进的性能,并且可以轻松集成到任何当前的 3D 医学图像理解网络中,显著提高其性能。
Mar, 2024
本文提出了一种用于医学数据的自监督深度学习的框架,该框架可以联合学习 2D 和 3D 数据,通过用变形注意力机制构建整体特征,并利用预训练语言模型进行掩蔽嵌入预测,提高了 2D Deep-ClusterV2 和 SwAV 的效果,并超越了各种现代 2D 和 3D 自监督学习方法。
Dec, 2022
提出了一种基于伪 3D 转换的跨维度自监督学习框架(CDSSL-P3D),该框架可以利用 2D 和 3D 数据进行联合预训练,实现 3D 医学图像分析的跨维度自监督学习。在 13 个下游任务上进行了广泛的实验,结果表明我们的 CDSSL-P3D 表现出色,优于其他先进的自监督学习方法。
Jun, 2024
借助统一的语义空间,UniMedI 提出了一种统一医学图像预训练框架,能够有效地为不同模态的医学图像创建统一的表示,并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。
Nov, 2023
本文提出了针对五种不同的自监督学习方法的三维版本,利用这些技术进行神经网络特征的学习,通过对三维图像的预处理,显著提高语义表示的精确性,从而在医学成像领域实现了数据效率、性能和收敛速度的提升,具有较高的竞争力和可扩展性。
Jun, 2020
本文提出了 MedBLIP,这是一个轻量级的 CAD 系统,利用预训练的图像编码器和语言模型,结合维度转换,对医学图像扫描和电子医疗记录中的文本描述进行预训练,最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。
May, 2023
该论文提出了一种名为 G2D 的新型 VLP 框架,通过伪分割任务与全局视觉语言对齐相结合,学习得到密集且语义化的图片表示,以在 6 个医学成像任务和 25 种疾病中取得明显改进的性能,尤其在细粒度的语义分割任务中,甚至在只使用 1% 的训练数据进行微调时,也能超过同类模型的性能。
Dec, 2023
本研究为培训深度学习算法所需数据量的问题提出了一种解决方案,通过建立医学图像分割数据集和使用 Med3D 进行多域协同训练,可以加速涉及 3D 医学图像的任务的训练收敛速度和提高准确度。
Apr, 2019
提出了 3D-VisTA,一个用于 3D 视觉和文本对齐的预训练 Transformer 模型,可轻松适应各种下游任务,通过在 ScanScribe 数据集上进行预训练,获得了在各种 3D-VL 任务上的最先进结果,同时展示了出色的数据效率。
Aug, 2023