将手术视频编码为隐式时空图,用于对象与解剖驱动的推理
在手术视频中进行语义分割在术中导航、术后分析和手术教育方面有应用价值。我们提出了一种用于建模视频时间关系的新架构,通过改善帧之间的时间一致性以提高视频语义分割精度,并在两个数据集上验证了其性能提升。
Jun, 2023
该论文研究了图神经网络如何增强视觉场景理解和手术技能评估,通过使用图神经网络分析以图形结构表示的手术过程的复杂视觉数据,可以提取相关特征并预测手术技能。此外,图神经网络提供可解释的结果,揭示了对预测技能指标有贡献的具体行动、仪器或解剖结构,这对于手术教育者和学员非常有益,因为它提供了成功手术表现和结果的重要见解。SurGNN提出了两种并行的方法-一种是有监督的,另一种是自监督的。文中还简要讨论了其他自动化手术技能评估技术,并强调手工设计特征在捕捉手术专长的细微差别方面的局限性。我们使用所提出的方法在EndoVis19和自定义数据集上达到了最先进的结果。代码的工作实现可以在此https URL找到。
Aug, 2023
我们提出了一种Surgical Temporal Action-aware Network with sequence Regularization (STAR-Net)来更准确地从输入视频中识别手术阶段。通过使用多尺度手术时态行动模块(MS-STA)和双分类器序列正则化(DSR),我们的方法可以有效利用手术行动的视觉特征,并在手术阶段识别方面取得卓越性能。
Nov, 2023
通过使用TriTemp-OR框架,整合图像、点云和语言三种模态,结合时间动态,并借助大规模语言模型,实现对手术场景的综合理解,以预测关系并生成场景图。
Apr, 2024
通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要,特别是在眼科领域。然而,缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白,我们引入了OphNet,一个大规模的,由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏,涵盖了66种白内障、青光眼和角膜手术,对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外,OphNet提供了每个手术、阶段和操作的顺序和层次注释,可以全面理解和提高可解释性。此外,OphNet提供了时间定位注释,有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时,比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。
Jun, 2024
本研究针对现有外科阶段识别方法在空间-时间依赖建模和冗余问题上的不足,提出了一种新颖的外科变压器(Surgformer)。该方法采用分层时间注意力(HTA)机制,能够有效捕捉不同时间尺度的全局和局部信息,从而显著提升空间-时间表示的效果。实验结果表明,Surgformer在挑战性基准数据集上表现优于现有最先进方法,具有重要的实际应用潜力。
Aug, 2024
本研究针对外科图像中的仪器分割问题,提出了一种无监督的方法,通过将视频帧分割视为图划分问题,显著降低了对人工标注的依赖。使用自监督预训练模型提取特征,并通过拉普拉斯矩阵实现有效的分割,不仅在多个数据集上表现优异,还展示了其在临床应用上的潜在影响。
Aug, 2024
该研究解决了在医学领域中,利用图像预训练模型进行手术视频阶段识别时面临的数据稀缺和空间-时间建模不足的问题。文中提出了一种新的参数高效迭代学习方法SurgPETL,通过引入空间-时间适应模块,显著提高了手术阶段识别的准确性和可靠性。研究结果表明,SurgPETL在多个手术程序的挑战性数据集上表现出了优越的效果。
Sep, 2024