Jun, 2024

OphNet:眼科手术工作流程理解的大规模视频基准

TL;DR通过视频进行手术场景感知对于推动机器人手术、远程手术和 AI 辅助手术至关重要,特别是在眼科领域。然而,缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白,我们引入了 OphNet,一个大规模的,由专家注释的眼科手术工作流理解视频基准。OphNet 具有包含 2,278 个手术视频的多样化收藏,涵盖了 66 种白内障、青光眼和角膜手术,对 102 个独特的手术阶段和 150 个细粒度操作进行了详细注释。此外,OphNet 提供了每个手术、阶段和操作的顺序和层次注释,可以全面理解和提高可解释性。此外,OphNet 提供了时间定位注释,有助于手术工作流中的时间定位和预测任务。OphNet 的手术视频总共约有 205 小时,比现有最大的手术工作流分析基准大约 20 倍。我们的数据集和代码已经在 https://github.com/minghu0830/OphNet-benchmark 上开放获取。