朝向全面的外科手术场景理解

Dec, 2022

Towards Holistic Surgical Scene Understanding

Natalia Valderrama, Paola Ruiz Puentes, Isabela Hernández, Nicolás Ayobi, Mathilde Verlyk...

TL;DR本文提出了一种新的基于综合外科场景理解的实验框架，通过介绍 PSI-AVA 数据集和 TAPIR 模型，展示了这种框架和其他公共数据库上实验结果的优越性和多级注释的好处。

Abstract

Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phas

surgical interventions holistic surgical scene understanding psi-ava dataset transformers for action multi-level annotations

发现论文，激发创造

像素级别识别用于整体手术场景理解

本文介绍了全面和多粒度的前列腺切除手术场景理解（GraSP）数据集，它将手术场景理解建模为具有不同粒度的互补任务的层次结构。我们的方法能够对手术活动进行多级理解，包括手术阶段和步骤识别等长期任务，以及手术器械分割和原子视觉动作检测等短期任务。为了利用我们提出的基准，我们引入了 Transformers for Actions、Phases、Steps 和 Instrument Segmentation（TAPIS）模型，这是一个将全局视频特征提取器与来自器械分割模型的局部区域提议相结合的通用架构，以应对我们基准的多粒度特性。通过广泛的实验，我们展示了在短期识别任务中包括分割注释的影响，突出了每个任务的不同粒度要求，并证明了 TAPIS 模型相对于以前提出的基线和传统的基于 CNN 的模型的优越性。此外，我们通过在多个公共基准上验证我们的方法的鲁棒性，确认了我们数据集的可靠性和适用性。这项工作在内窥镜视觉领域迈出了重要的一步，为将来研究提供了一个新颖且全面的框架，以实现对手术程序的全面理解。

Jan, 2024

SAR-RARP50：机器人辅助根治性前列腺切除术手术器械分割和动作识别挑战

发布了第一个多模态、公开可用的体内手术行为识别和语义仪器分割数据集，旨在通过利用提供的数据集的规模来开发在手术领域中稳健且高准确度的单任务行为识别和仪器分割方法，并进一步探索多任务学习方法的潜力及其相对优势。

Dec, 2023

胸科手术视频分析与手术阶段识别

该研究论文介绍了一种利用视频数据进行手术阶段识别的方法，旨在为自动化工作流分析提供手术程序的全面理解。研究表明，在手术阶段识别任务中，视频基分类器相比于基于图片的分类器具有更高的效果。

Jun, 2024

跨时空的朋友：多尺度行动分割变压器用于手术阶段识别

现代手术室和在线手术视频评估平台中，自动手术阶段识别是一项核心技术。本文介绍了用于离线和在线手术阶段识别的多尺度动作分割变换器（MS-AST）和多尺度动作分割因果变换器（MS-ASCT），利用了空间和时间信息，在不同尺度上建模了时间信息，并成功达到了 95.26% 和 96.15% 的 Cholec80 数据集在线和离线手术阶段识别准确率，达到了最新研究成果的水平。此外，在视频动作分割领域的非医学数据集上，该方法也取得了最先进的结果。

Jan, 2024

SuPRA: 术中手术阶段识别与预测

SuPRA 是一种新的多任务方法，通过手术阶段的识别和未来事件的预测为改进术中辅助提供了途径。

Mar, 2024

带有序列正则化的手术时间动作感知网络用于阶段识别

我们提出了一种 Surgical Temporal Action-aware Network with sequence Regularization (STAR-Net) 来更准确地从输入视频中识别手术阶段。通过使用多尺度手术时态行动模块（MS-STA）和双分类器序列正则化（DSR），我们的方法可以有效利用手术行动的视觉特征，并在手术阶段识别方面取得卓越性能。

Nov, 2023

利用场景图知识推进手术视觉问答

通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战，我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net，展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。

Dec, 2023

SVIP: 视频过程序列验证

该研究提出了一项基于视频配对的序列验证任务，通过转换步骤以及在不使用事件级或帧级注释的情况下进行相同任务，以区分具有相同操作序列的正面视频配对和负面视频配对，并引入了一种新的评估指标来确保不同步骤级别的变换之间的等价性，并且利用基于 Transformers 的编码器以及新的序列对齐损失函数实现了对长期依赖性的更好的特征化，从而优于其他动作识别方法。

Dec, 2021

基于多模态数据的手术手势分割和识别的分层半监督学习框架

通过使用多模态数据、分层半监督学习框架、基于 Transformer 的网络等方法，该研究提出了一种用于手术姿势分割和手势识别的技术，并在公开可用的 JIGSAWS 数据库上进行了评估，得到了较高的分割和识别准确度。

Jul, 2023

ARST: 从腹腔镜视频中实现术前阶段识别的自回归手术变压器

本文提出了一种名为 ARST 的自回归手术变压器，用于从腹腔镜视频中实时识别手术阶段。通过条件概率分布隐式地建模了阶段间相关性，并采用一致性约束推断策略以减少推断偏差和增强阶段一致性。在知名的公共数据集 Cholec80 上进行了综合验证，实验结果表明，我们的方法在定量和定性上都优于现有的最先进方法，并实现了每秒 66 帧的推断速率。

Sep, 2022