利用长短时空聚合转换器进行显微白内障手术的阶段特定增强现实引导
本文提出了一种名为ARST的自回归手术变压器,用于从腹腔镜视频中实时识别手术阶段。通过条件概率分布隐式地建模了阶段间相关性,并采用一致性约束推断策略以减少推断偏差和增强阶段一致性。在知名的公共数据集Cholec80上进行了综合验证,实验结果表明,我们的方法在定量和定性上都优于现有的最先进方法,并实现了每秒66帧的推断速率。
Sep, 2022
本文介绍了一种称为长视频变压器(LoViT)的两阶段方法,用于融合短期和长期时间信息的融合,可以比当前的方法更好地处理手术过程中的长视频,并通过将本地和全局特征结合起来使用多尺度时间聚合器对手术相位进行分类。研究发现,与现有的方法相比,LoViT在两个手术视频数据集上的表现最优
May, 2023
通过提出SurgPLAN,一种基于时间检测原理的外科手术阶段定位网络,利用金字塔慢速-快速(PSF)架构和时间相位定位(TPL)模块,可以准确稳定地识别手术阶段,克服了现有方法不能捕获可区分的视觉特征和运动信息以及帧逐帧识别范式导致的不稳定预测的问题。
Nov, 2023
我们提出了一种Surgical Temporal Action-aware Network with sequence Regularization (STAR-Net)来更准确地从输入视频中识别手术阶段。通过使用多尺度手术时态行动模块(MS-STA)和双分类器序列正则化(DSR),我们的方法可以有效利用手术行动的视觉特征,并在手术阶段识别方面取得卓越性能。
Nov, 2023
近年来,计算机辅助干预和术后手术视频分析的领域正在被深度学习技术所重塑,这些技术取得了外科医生技能、手术室管理和整体手术结果方面的显著进展。本文介绍了最大的白内障手术视频数据集,该数据集满足构建计算机化手术工作流分析和检测白内障手术后异常的多样性需求。我们通过评估白内障手术视频中的跨领域器械分割性能,开展了白内障手术领域适应性研究。数据集和注释将在文章被接受后公开。
Dec, 2023
SLIMBRAIN是一个实时获取和处理增强现实系统,适用于从高光谱信息中分类和显示脑肿瘤组织。该系统在肿瘤切除手术过程中以每秒14帧的速度捕获和处理高光谱图像,同时实现癌组织的检测和定位。这种可视化表示与LiDAR相机捕捉的RGB点云重叠,实现了在捕捉和处理过程中对场景的自然导航,提高了高光谱技术对肿瘤定位的可视化和效果。整个系统已在真实脑肿瘤切除手术中得到验证。
Mar, 2024
为解决开放手术阶段识别研究的不足,该研究提出了一种基于眼球凝视的遮蔽自编码器(GGMAE)方法,并介绍了一个名为EgoSurgery-Phase的新的视角手术视频数据集,有效提高了开放手术阶段识别的准确性。
May, 2024
通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要,特别是在眼科领域。然而,缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白,我们引入了OphNet,一个大规模的,由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏,涵盖了66种白内障、青光眼和角膜手术,对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外,OphNet提供了每个手术、阶段和操作的顺序和层次注释,可以全面理解和提高可解释性。此外,OphNet提供了时间定位注释,有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时,比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。
Jun, 2024
本研究针对现有外科阶段识别方法在空间-时间依赖建模和冗余问题上的不足,提出了一种新颖的外科变压器(Surgformer)。该方法采用分层时间注意力(HTA)机制,能够有效捕捉不同时间尺度的全局和局部信息,从而显著提升空间-时间表示的效果。实验结果表明,Surgformer在挑战性基准数据集上表现优于现有最先进方法,具有重要的实际应用潜力。
Aug, 2024