CoPESD：用于训练大型视觉语言模型的多层次外科手术动作数据集，以协助内窥镜下粘膜下切除

Oct, 2024

CoPESD：用于训练大型视觉语言模型的多层次外科手术动作数据集，以协助内窥镜下粘膜下切除

CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection

HTML

PDF

Guankun Wang, Han Xiao, Huxin Gao, Renrui Zhang, Long Bai...

TL;DR本研究解决了现有数据集中缺乏多层次精细运动理解的不足，提出了一个新的多层次外科手术动作数据集CoPESD，旨在为大规模视觉语言模型的训练提供支持。该数据集包含17,679张图像和88,395种多层次动作，能有效提升机器人辅助手术的精确性和减少风险，推动内窥镜下技术的自动化研究。

Abstract

submucosal dissection (ESD) enables rapid resection of large lesions, minimizing recurrence rates and improving long-term overall survival. Despite these advantages, ESD is technically challenging and carries high risks of complications, necessitating skilled surgeons and precise instruments. Recent advancements in Large Visual-Language Models (LVLMs) offer

发现论文，激发创造

手术中基于视觉动力学图学习的适用于任何程序的机器人手术器械尖端分割

通过图学习、多模态信息和交叉验证，我们提出了一种新的视觉-运动学图学习框架，精确地对给定的各种手术过程中的手术器械尖端进行分割。

Sep, 2023

腹腔镜手术中多类多工具跟踪的数据集CholecTrack20

通过引入CholecTrack20数据集，本文解决了在外科视频中进行工具跟踪的需求，该数据集是根据内窥镜手术的复杂性精心注释的，可跟踪多类多工具的三个不同视角的工具轨迹，包括内窥镜手术、人体内部手术和相机视野中的工具可见性，该详细数据集满足了手术过程中不断变化的辅助要求。

Dec, 2023

微创手术视觉的多任务学习综述

通过分析MIS视频，综述了当前MTL系统在MIS中的应用，讨论了这些系统的优势和局限性，并对MTL在MIS的各个应用领域进行了文献分析，包括大模型，突出了显著趋势、新的研究方向和发展。

Jan, 2024

VidLPRO：一种用于机器人和腹腔镜手术的视频语言预训练框架

本研究针对现有外科手术视频语言模型的不足，提出了一种名为VidLPRO的新型视频语言预训练框架，旨在更全面地捕捉视频与语言之间的复杂时间动态。该框架通过结合视频文本对比学习、视频文本匹配和掩蔽语言建模等目标，取得了在零-shot外科阶段识别中的领先表现，显著超越了现有模型，展示了其作为外科视频理解基础模型的潜力。

Sep, 2024

VidLPRO：针对机器人和腹腔镜手术的视频语言预训练框架

本文提出了VidLPRO，一个专为机器人和腹腔镜手术设计的视频语言预训练框架，旨在填补现有模型对复杂时间动态的捕捉和视频与语言对齐的不足。通过结合视频文本对比学习、视频文本匹配和掩码语言建模目标，VidLPRO在零-shot手术阶段识别中实现了领先的性能，相较于现有模型提高了最多21.5％的准确率和15.7％的F1分数，具有重要的应用潜力。

Sep, 2024

SPRMamba：基于Mamba的内镜下黏膜下解剖手术阶段识别

本研究解决了内镜下黏膜下解剖手术（ESD）中手术阶段实时识别的准确性问题。提出的SPRMamba框架利用Mamba进行长期时间建模，同时引入了Scaled Residual TranMamba模块来捕获细微特征，显著提高了识别效果。实验结果显示，SPRMamba在不同的手术阶段识别任务中均优于现有的最佳方法，具有更强的鲁棒性。

Sep, 2024

深度学习在机器人辅助手术中的外科器械识别与分割：系统评估

本研究系统评估了深度学习在机器人辅助手术中对外科器械的识别与分割的应用，填补了这一领域的研究空白。研究发现，先进的深度学习模型显著提升了器械检测与分割的精度和效率，并为外科手术提供了实时指导和客观评估。未来的研究应集中于自动化处理以及扩展深度学习技术在各类手术领域的应用。

Oct, 2024

PDZSeg：利用视觉提示适应基础模型进行机器人辅助内镜下分解区分割

本研究解决了内镜下手术中分解区分割的挑战，特别是组织类型之间边界不清导致的分割错误。提出了一种新颖的PDZSeg模型，利用多种视觉提示（如涂鸦和边界框）来优化分割性能，研究结果显示该模型在内镜下分解区分割任务中优于现有方法，并为未来的研究奠定了基础。

Nov, 2024

ETSM：自动化解剖轨迹建议与基于置信度映射的机器人辅助内窥镜下粘膜下层解剖安全边际预测

本研究解决了机器人辅助内窥镜下粘膜下层解剖（ESD）中解剖轨迹预测的困难，提升了手术决策的准确性和安全性。我们提出了ETSM数据集及RCMNet框架，将解剖轨迹预测与置信度映射结合，以优化安全边际预测，实验结果表明该方法显著提高了解剖安全性，临床应用潜力巨大。

Nov, 2024

SimuScope：通过外科模拟和扩散模型生成真实的内窥镜合成数据集

该研究解决了计算机辅助外科系统中合成数据的现实性不足问题，提出了一种多阶段数据生成管道，结合了一款全面的外科模拟器，能够自动生成所需的注释，提升真实感和复杂度。研究表明，该方法有效地缩小了合成数据与真实数据之间的视觉差距，对外科培训和指导具有显著的潜在影响。

Dec, 2024