Jun, 2024

OphNet:眼科手术工作流程理解的大规模视频基准

TL;DR通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要,特别是在眼科领域。然而,缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白,我们引入了OphNet,一个大规模的,由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏,涵盖了66种白内障、青光眼和角膜手术,对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外,OphNet提供了每个手术、阶段和操作的顺序和层次注释,可以全面理解和提高可解释性。此外,OphNet提供了时间定位注释,有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时,比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。