使用视觉 - 语言模型的可提示手术器械分割
通过将手术器械结构知识与 SAM 的通用分割知识集成,我们提出了 SP-SAM(手术器械的分割模型),它通过文本提示将器械分解为细粒度部分,并通过选择性融合和分层解码策略将部分级别的表示组合成一个整体,以实现精确的器械分割。在 EndoVis2018 和 EndoVis2017 数据集上的广泛实验证明了 SP-SAM 具有最先进的性能。
Dec, 2023
SurgicalSAM 是一种针对显著改善 SAM 泛化性能的新型端到端高效调优方法,引入了轻量级基于原型的类提示编码器,并提出了对比原型学习以进一步增强类原型的区分力,通过在 EndoVis2018 和 EndoVis2017 数据集上进行广泛实验,证明其达到了最先进的性能,仅需要少量可调参数。
Aug, 2023
研究通过开发 Surgical-DeSAM 方法,利用 Bounding Box 提示和实时机器人手术,实现了实时仪器分割,并在 MICCAI 手术仪器分割挑战 EndoVis 2017 和 2018 数据集上显著改进仪器分割方法的性能。
Apr, 2024
本研究中,我们建立了一个可以通过文本提示来在医疗场景中对任意物体进行分割的模型,称之为 SAT。我们的主要贡献有三个方面:(一)在数据构造方面,我们整合了多个知识源来构建一个多模态的医学知识树,并通过收集超过 11,000 个来自 31 个分割数据集的三维医学图像扫描的大规模分割数据集进行训练,同时对图像扫描和标签空间进行了精确标准化;(二)在模型训练方面,我们提出了一种通用的分割模型,可以通过输入文本形式的医学术语进行提示。我们提出了一种知识增强的表示学习框架以及一系列有效训练策略,结合了大量数据集进行训练;(三)在模型评估方面,我们用只有 107M 参数的 SAT-Nano 模型对 31 个不同的分割数据集进行了分割,使用文本提示,得到了 362 个类别。我们从身体区域的平均值、类别的平均值和数据集的平均值三个方面对模型进行了全面评估,结果表明与 36 个专家 nnUNets 的性能相当,即我们对每个数据集 / 子集训练 nnUNet 模型,为 31 个数据集训练了 36 个大约有 1,000M 参数的 nnUNets 模型。我们将在本报告中公布所有用到的代码和模型,即 SAT-Nano,并且我们将在不久的将来提供 SAT-Ultra,它将在更多的多样化数据集上使用更大尺寸的模型进行训练。
Dec, 2023
该研究描述了他们在 MICCAI 2017 内窥镜视觉子挑战赛中赢得的机器人工具分割选手冠军的解决方案,该解决方案通过使用几种新颖的深度神经网络架构获得了比现有技术更好的结果来解决机器人手术中的工具语义分割问题。
Mar, 2018
利用下游分割任务优化人工提供的提示,提出了针对 Segment Anything Model(SAM)等基础模型的即插即用的 Prompt 优化技术(SAMPOT),在胸部 X 射线图像的肺分割中取得了显著的改进,并希望此工作能在自动视觉提示调整的新兴领域引起进一步研究。
Oct, 2023
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。
Dec, 2021
本文介绍了一项比较研究,探讨了在机器人以及传统腹腔镜手术中,基于视觉的不同方法用于器械分割和追踪的效果。研究表明,现代的深度学习方法在器械分割任务中表现优异,但结果还不完美。此外,合并不同方法的结果实际上显著提高了准确性。与此同时,器械追踪任务的结果表明,在传统腹腔镜手术中这仍然是一个待解决的挑战。
May, 2018
该综述文章着重介绍了目前基于纯视觉的、不附加任何标记的单帧和带有时间信息的最小侵入性手术图像中手术工具分割和跟踪方法,重点关注深度学习方法和公开数据集的使用,讨论了存在的不足之处和未来发展的潜能。
Apr, 2023
利用 Bridge-Prompt 框架,我们对预训练的 vision-text 模型 (CLIP) 进行微调,以在外科手术视频中进行手势识别。实验结果显示基于提示的视频编码器在外科手势识别任务中优于标准编码器,尤其在零样本情况下表现出强大性能。这些预训练 + 微调的视频编码器模型在外科机器人学中提供了重要的视觉表示,特别适用于手势识别任务。
Mar, 2024