朝向全面的外科手术场景理解
本文介绍了全面和多粒度的前列腺切除手术场景理解(GraSP)数据集,它将手术场景理解建模为具有不同粒度的互补任务的层次结构。我们的方法能够对手术活动进行多级理解,包括手术阶段和步骤识别等长期任务,以及手术器械分割和原子视觉动作检测等短期任务。为了利用我们提出的基准,我们引入了 Transformers for Actions、Phases、Steps 和 Instrument Segmentation(TAPIS)模型,这是一个将全局视频特征提取器与来自器械分割模型的局部区域提议相结合的通用架构,以应对我们基准的多粒度特性。通过广泛的实验,我们展示了在短期识别任务中包括分割注释的影响,突出了每个任务的不同粒度要求,并证明了 TAPIS 模型相对于以前提出的基线和传统的基于 CNN 的模型的优越性。此外,我们通过在多个公共基准上验证我们的方法的鲁棒性,确认了我们数据集的可靠性和适用性。这项工作在内窥镜视觉领域迈出了重要的一步,为将来研究提供了一个新颖且全面的框架,以实现对手术程序的全面理解。
Jan, 2024
发布了第一个多模态、公开可用的体内手术行为识别和语义仪器分割数据集,旨在通过利用提供的数据集的规模来开发在手术领域中稳健且高准确度的单任务行为识别和仪器分割方法,并进一步探索多任务学习方法的潜力及其相对优势。
Dec, 2023
该研究论文介绍了一种利用视频数据进行手术阶段识别的方法,旨在为自动化工作流分析提供手术程序的全面理解。研究表明,在手术阶段识别任务中,视频基分类器相比于基于图片的分类器具有更高的效果。
Jun, 2024
现代手术室和在线手术视频评估平台中,自动手术阶段识别是一项核心技术。本文介绍了用于离线和在线手术阶段识别的多尺度动作分割变换器(MS-AST)和多尺度动作分割因果变换器(MS-ASCT),利用了空间和时间信息,在不同尺度上建模了时间信息,并成功达到了 95.26% 和 96.15% 的 Cholec80 数据集在线和离线手术阶段识别准确率,达到了最新研究成果的水平。此外,在视频动作分割领域的非医学数据集上,该方法也取得了最先进的结果。
Jan, 2024
我们提出了一种 Surgical Temporal Action-aware Network with sequence Regularization (STAR-Net) 来更准确地从输入视频中识别手术阶段。通过使用多尺度手术时态行动模块(MS-STA)和双分类器序列正则化(DSR),我们的方法可以有效利用手术行动的视觉特征,并在手术阶段识别方面取得卓越性能。
Nov, 2023
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。
Dec, 2023
该研究提出了一项基于视频配对的序列验证任务,通过转换步骤以及在不使用事件级或帧级注释的情况下进行相同任务,以区分具有相同操作序列的正面视频配对和负面视频配对,并引入了一种新的评估指标来确保不同步骤级别的变换之间的等价性,并且利用基于 Transformers 的编码器以及新的序列对齐损失函数实现了对长期依赖性的更好的特征化,从而优于其他动作识别方法。
Dec, 2021
通过使用多模态数据、分层半监督学习框架、基于 Transformer 的网络等方法,该研究提出了一种用于手术姿势分割和手势识别的技术,并在公开可用的 JIGSAWS 数据库上进行了评估,得到了较高的分割和识别准确度。
Jul, 2023
本文提出了一种名为 ARST 的自回归手术变压器,用于从腹腔镜视频中实时识别手术阶段。通过条件概率分布隐式地建模了阶段间相关性,并采用一致性约束推断策略以减少推断偏差和增强阶段一致性。在知名的公共数据集 Cholec80 上进行了综合验证,实验结果表明,我们的方法在定量和定性上都优于现有的最先进方法,并实现了每秒 66 帧的推断速率。
Sep, 2022