使用在自然图像上预训练的 2D 视觉 Transformer 增强 3D 神经元分割
提出了一种名为 NRTR 的神经元重建变压器,它不需要复杂的基于规则的组件,将神经元重建视为直接的集合预测问题,是第一个用于端到端神经元重建的图像到集合的深度学习模型,并在实验中取得了出色的成果,证明了将神经元重建视为集合预测问题的有效性,使得端到端模型训练成为可能。
Dec, 2022
使用视觉 transformer 替代卷积在现有的高效,高性能的 3D 目标重建技术中,预测三维结构并取得类似或优于基线方法的准确度,表明视觉 transformer 在三维目标重建任务中有着巨大的潜力。
Feb, 2023
本文综述了基于 transformer 的视觉分割技术,总结了近期的进展,详细介绍了各种方法设计和应用,并对该领域的未来研究方向进行了探讨。
Apr, 2023
本论文介绍了一种将自然图像上训练的 2D 分类网络的效率转移到 2D、3D 单模态和多模态医学图像分割应用中的高效方法,该方法基于权重转移和维度转移的两个关键原则,实验证明其在多维医学图像分割方面表现出色。
Jul, 2023
在肿瘤学研究中,准确的 CT 扫描病灶 3D 分割对于病灶生长动力学的建模至关重要。然而,根据 RECIST 准则,放射科医生通常仅在显示最大横截面面积的轴位切片上勾画每个病灶,并在研究目的上勾画少量的 3D 病灶。因此,我们有大量未标记的 3D 体积和带标签的 2D 图像,以及稀缺的标记的 3D 体积,这使得训练深度学习 3D 分割模型成为一项具有挑战性的任务。本研究提出了一种新模型,称为多维统一的 Swin Transformer (MDU-ST),用于 3D 病灶分割。MDU-ST 由一个偏移窗口变换器 (Swin-transformer) 编码器和一个卷积神经网络 (CNN) 解码器组成,使其能够适应 2D 和 3D 输入,并在同一编码器中学习相应的语义信息。基于该模型,我们引入了一个三阶段框架:1) 通过自我监督的先验任务利用大量未标记的 3D 病灶体积来学习 Swin-transformer 编码器中病灶解剖学的潜在模式;2) 对 Swin-transformer 编码器进行微调,以使用 2D RECIST 切片执行 2D 病灶分割,学习切片级分割信息;3) 进一步对 Swin-transformer 编码器进行微调,以使用带标签的 3D 体积执行 3D 病灶分割。该网络的性能通过 Dice 相似系数 (DSC) 和 Hausdorff 距离 (HD) 在一个内部的 3D 病灶数据集上进行评估,其中包含来自多个解剖位置的 593 个病灶。所提出的 MDU-ST 相比竞争模型表现出显著改进。该方法可用于进行自动化的 3D 病灶分割以辅助放射组学和肿瘤生长建模研究。本论文已被 IEEE 国际生物医学成像研讨会 (ISBI) 2023 接受。
Sep, 2023
从单一视角解决图像到三维的问题是一个不适定问题,现有的神经重建方法依靠场景特定的优化限制其泛化能力。为了克服现有方法在泛化和一致性方面的局限性,我们引入了一种新颖的神经渲染技术。我们的方法通过几何编码体积和超网络,采用有符号距离函数作为表面表示,并从生成的多视图输入构建神经编码体积,在测试时根据输入图像调整 SDF 网络的权重,通过超网络以前馈方式实现对新场景的模型适应。为了减轻合成视图产生的伪影,我们提出了一个体素变换模块来改善图像特征的聚合,而不是单独处理每个视点。通过我们提出的 Hyper-VolTran 方法,我们避免了场景特定优化的瓶颈,并保持从多个视点生成的图像的一致性。我们的实验证明了我们提出的方法的优越性,具有一致的结果和快速生成。
Dec, 2023
本研究提出了一种基于 3D Swin transformer 的预训练 3D backbone——Swin3D,并结合大型结构化数据集 Structured3D 进行了预训练。研究发现,在 3D 室内场景理解方面,Swin3D 先于所有现有技术,并表现出较好的普适性和优越性能,预训练 3D backbone 能够对 3D 识别任务产生巨大作用。
Apr, 2023
本文提出一种通用的视觉转换器(Visual Transformer),名为 Simple3D-Former,可用于高效地进行 2D 和 3D 任务的训练和预测,并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性,同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.
Sep, 2022
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
提出了一种名为 Mask3D 的预训练方法,可以将现有的大规模 RGB-D 数据应用于自监督预训练中,将 3D 先验嵌入到 2D 的学习特征中,并对多个场景理解任务产生了改进,尤其是语义分割。
Feb, 2023