Jan, 2024
像素级别识别用于整体手术场景理解
Pixel-Wise Recognition for Holistic Surgical Scene Understanding
TL;DR本文介绍了全面和多粒度的前列腺切除手术场景理解(GraSP)数据集,它将手术场景理解建模为具有不同粒度的互补任务的层次结构。我们的方法能够对手术活动进行多级理解,包括手术阶段和步骤识别等长期任务,以及手术器械分割和原子视觉动作检测等短期任务。为了利用我们提出的基准,我们引入了Transformers for Actions、Phases、Steps和Instrument Segmentation(TAPIS)模型,这是一个将全局视频特征提取器与来自器械分割模型的局部区域提议相结合的通用架构,以应对我们基准的多粒度特性。通过广泛的实验,我们展示了在短期识别任务中包括分割注释的影响,突出了每个任务的不同粒度要求,并证明了TAPIS模型相对于以前提出的基线和传统的基于CNN的模型的优越性。此外,我们通过在多个公共基准上验证我们的方法的鲁棒性,确认了我们数据集的可靠性和适用性。这项工作在内窥镜视觉领域迈出了重要的一步,为将来研究提供了一个新颖且全面的框架,以实现对手术程序的全面理解。