利用长短时空聚合转换器进行显微白内障手术的阶段特定增强现实引导

Sep, 2023

利用长短时空聚合转换器进行显微白内障手术的阶段特定增强现实引导

Phase-Specific Augmented Reality Guidance for Microscopic Cataract Surgery Using Long-Short Spatiotemporal Aggregation Transformer

HTML

PDF

Puxun Tu, Hongfei Ye, Haochen Shi, Jeff Young, Meng Xie...

TL;DR研究了一种针对白内障手术的相位特定的增强现实（AR）辅助系统，该系统通过识别手术阶段提供定制的AR信息，利用多任务学习和时空聚合转换网络，抽取空间特征并结合时间特性，进一步通过临床实验验证了其在手术中的潜力。

Abstract

phacoemulsification cataract surgery (PCS) is a routine procedure conducted using a surgical microscope, heavily reliant on the skill of the ophthalmologist. While existing PCS guidance systems extract valuable information from surgical microscopic videos to enhance intraoperative prof

发现论文，激发创造

ARST: 从腹腔镜视频中实现术前阶段识别的自回归手术变压器

本文提出了一种名为ARST的自回归手术变压器，用于从腹腔镜视频中实时识别手术阶段。通过条件概率分布隐式地建模了阶段间相关性，并采用一致性约束推断策略以减少推断偏差和增强阶段一致性。在知名的公共数据集Cholec80上进行了综合验证，实验结果表明，我们的方法在定量和定性上都优于现有的最先进方法，并实现了每秒66帧的推断速率。

Sep, 2022

LoViT：用于外科阶段识别的长视频Transformer

本文介绍了一种称为长视频变压器（LoViT）的两阶段方法，用于融合短期和长期时间信息的融合，可以比当前的方法更好地处理手术过程中的长视频，并通过将本地和全局特征结合起来使用多尺度时间聚合器对手术相位进行分类。研究发现，与现有的方法相比，LoViT在两个手术视频数据集上的表现最优

May, 2023

SurgPLAN：外科阶段定位网络用于阶段识别

通过提出SurgPLAN，一种基于时间检测原理的外科手术阶段定位网络，利用金字塔慢速-快速（PSF）架构和时间相位定位（TPL）模块，可以准确稳定地识别手术阶段，克服了现有方法不能捕获可区分的视觉特征和运动信息以及帧逐帧识别范式导致的不稳定预测的问题。

Nov, 2023

带有序列正则化的手术时间动作感知网络用于阶段识别

我们提出了一种Surgical Temporal Action-aware Network with sequence Regularization (STAR-Net)来更准确地从输入视频中识别手术阶段。通过使用多尺度手术时态行动模块（MS-STA）和双分类器序列正则化（DSR），我们的方法可以有效利用手术行动的视觉特征，并在手术阶段识别方面取得卓越性能。

Nov, 2023

深度学习辅助白内障手术视频分析

通过上述五个贡献，本论文解决了白内障手术视频分析中的重要挑战，为构建高效的上下文感知系统铺平了道路。

Dec, 2023

白内障手术数据集用于场景分割、相位识别和异常检测

近年来，计算机辅助干预和术后手术视频分析的领域正在被深度学习技术所重塑，这些技术取得了外科医生技能、手术室管理和整体手术结果方面的显著进展。本文介绍了最大的白内障手术视频数据集，该数据集满足构建计算机化手术工作流分析和检测白内障手术后异常的多样性需求。我们通过评估白内障手术视频中的跨领域器械分割性能，开展了白内障手术领域适应性研究。数据集和注释将在文章被接受后公开。

Dec, 2023

SLIMBRAIN: 增强现实实时获取和处理系统用于体内外科手术的深度信息高光谱分类绘图

SLIMBRAIN是一个实时获取和处理增强现实系统，适用于从高光谱信息中分类和显示脑肿瘤组织。该系统在肿瘤切除手术过程中以每秒14帧的速度捕获和处理高光谱图像，同时实现癌组织的检测和定位。这种可视化表示与LiDAR相机捕捉的RGB点云重叠，实现了在捕捉和处理过程中对场景的自然导航，提高了高光谱技术对肿瘤定位的可视化和效果。整个系统已在真实脑肿瘤切除手术中得到验证。

Mar, 2024

EgoSurgery-Phase：开放式手术视频中手术阶段识别的数据集

为解决开放手术阶段识别研究的不足，该研究提出了一种基于眼球凝视的遮蔽自编码器（GGMAE）方法，并介绍了一个名为EgoSurgery-Phase的新的视角手术视频数据集，有效提高了开放手术阶段识别的准确性。

May, 2024

OphNet：眼科手术工作流程理解的大规模视频基准

通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要，特别是在眼科领域。然而，缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白，我们引入了OphNet，一个大规模的，由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏，涵盖了66种白内障、青光眼和角膜手术，对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外，OphNet提供了每个手术、阶段和操作的顺序和层次注释，可以全面理解和提高可解释性。此外，OphNet提供了时间定位注释，有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时，比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。

Jun, 2024

外科变压器：具有分层时间注意力的外科阶段识别

本研究针对现有外科阶段识别方法在空间-时间依赖建模和冗余问题上的不足，提出了一种新颖的外科变压器（Surgformer）。该方法采用分层时间注意力（HTA）机制，能够有效捕捉不同时间尺度的全局和局部信息，从而显著提升空间-时间表示的效果。实验结果表明，Surgformer在挑战性基准数据集上表现优于现有最先进方法，具有重要的实际应用潜力。

Aug, 2024