外科视频的动态场景图表示
在手术视频中进行语义分割在术中导航、术后分析和手术教育方面有应用价值。我们提出了一种用于建模视频时间关系的新架构,通过改善帧之间的时间一致性以提高视频语义分割精度,并在两个数据集上验证了其性能提升。
Jun, 2023
通过图学习、多模态信息和交叉验证,我们提出了一种新的视觉-运动学图学习框架,精确地对给定的各种手术过程中的手术器械尖端进行分割。
Sep, 2023
利用潜在时空图对外科视频进行建模,以表示其组成的解剖结构和工具随时间的变化,通过添加长期时间边增加对手术场景演化的建模,并引入新颖的图编辑模块,评估了两项下游任务,取得了强大的结果,证明了学到的表示的质量和灵活性。
Dec, 2023
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。
Dec, 2023
本文介绍了全面和多粒度的前列腺切除手术场景理解(GraSP)数据集,它将手术场景理解建模为具有不同粒度的互补任务的层次结构。我们的方法能够对手术活动进行多级理解,包括手术阶段和步骤识别等长期任务,以及手术器械分割和原子视觉动作检测等短期任务。为了利用我们提出的基准,我们引入了Transformers for Actions、Phases、Steps和Instrument Segmentation(TAPIS)模型,这是一个将全局视频特征提取器与来自器械分割模型的局部区域提议相结合的通用架构,以应对我们基准的多粒度特性。通过广泛的实验,我们展示了在短期识别任务中包括分割注释的影响,突出了每个任务的不同粒度要求,并证明了TAPIS模型相对于以前提出的基线和传统的基于CNN的模型的优越性。此外,我们通过在多个公共基准上验证我们的方法的鲁棒性,确认了我们数据集的可靠性和适用性。这项工作在内窥镜视觉领域迈出了重要的一步,为将来研究提供了一个新颖且全面的框架,以实现对手术程序的全面理解。
Jan, 2024
通过使用TriTemp-OR框架,整合图像、点云和语言三种模态,结合时间动态,并借助大规模语言模型,实现对手术场景的综合理解,以预测关系并生成场景图。
Apr, 2024
通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要,特别是在眼科领域。然而,缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白,我们引入了OphNet,一个大规模的,由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏,涵盖了66种白内障、青光眼和角膜手术,对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外,OphNet提供了每个手术、阶段和操作的顺序和层次注释,可以全面理解和提高可解释性。此外,OphNet提供了时间定位注释,有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时,比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。
Jun, 2024
本研究针对外科图像中的仪器分割问题,提出了一种无监督的方法,通过将视频帧分割视为图划分问题,显著降低了对人工标注的依赖。使用自监督预训练模型提取特征,并通过拉普拉斯矩阵实现有效的分割,不仅在多个数据集上表现优异,还展示了其在临床应用上的潜在影响。
Aug, 2024
本研究针对外科视频中工具和解剖结构的像素级定位问题,提出了一种高效的注释框架,利用图像自监督物体发现方法来识别外科场景中的关键工具和结构。在仅用36个注释标签的条件下,我们的方法显示出与完全监督模型相当的定位性能,并通过使用外科阶段标签进一步提升了约2%的工具定位准确率。
Sep, 2024
本研究针对手术数据稀缺和异质性问题,提出了一种新颖的腹腔镜手术未来视频生成任务,旨在增强和丰富现有的手术数据。通过引入行动图和扩散模型,VISAGE能够基于单一初始帧预测未来视频,这一成果为手术模拟、分析和机器人辅助手术等应用提供了重要支持。
Oct, 2024