普通外科视觉变换器:用于普通外科的视频预训练基础模型
通过开发多模态、多任务、视觉 - 语言 - 行为模型,本文提出一条路径,以增加机器人辅助手术中机器人的自治性,最终我们认为,机器人辅助手术能够从通用模型中获益,并提供三个指导性行动以增加机器人辅助手术的自治性。
Jan, 2024
该研究使用手术视频讲座来进行多模态表示学习,通过自动生成的文本转录来解决手术视频中的语言挑战,提出了一种新的对齐视频和文本嵌入的方法 SurgVLP,并介绍了一些用于手术的视觉与语言任务作为评估标准。
Jul, 2023
本文介绍了一种称为长视频变压器(LoViT)的两阶段方法,用于融合短期和长期时间信息的融合,可以比当前的方法更好地处理手术过程中的长视频,并通过将本地和全局特征结合起来使用多尺度时间聚合器对手术相位进行分类。研究发现,与现有的方法相比,LoViT 在两个手术视频数据集上的表现最优
May, 2023
通过引入名为 ViTALS 的新模型,结合层次式扩张时间卷积层和层间残差连接,来定位手术肾切除视频中的行动位置,实现了 89.8% 和 66.1% 的准确率,验证了其有效性。
May, 2024
本文介绍了一种可以应用于内窥镜视频分析的基础模型 Endo-FM,其使用全局和局部视图进行自监督下预训练,并能够通过微调来应用于不同任务,其优于当前的自监督预训练和适配器转移学习方法。
Jun, 2023
提出了一种基于视觉转换器的方法来联合学习时空特征,以自动进行手术步骤识别,通过在两个白内障手术视频数据集上的广泛评估,证明了该方法在自动手术步骤识别方面具有优异的性能。
Jul, 2023
通过使用扩散模型结合零样本视频扩散方法,通过文本指定手术动作并通过分割掩模指导生成真实的腹腔镜图像和视频,本研究在提高培训过程中迈出了重要一步,评估了生成的图像的保真度和事实正确性,获得了 FID 指标为 38.097 和 F1-score 指标为 0.71。
Apr, 2024
该研究论文介绍了一种利用视频数据进行手术阶段识别的方法,旨在为自动化工作流分析提供手术程序的全面理解。研究表明,在手术阶段识别任务中,视频基分类器相比于基于图片的分类器具有更高的效果。
Jun, 2024
我们介绍了一种用于腹腔镜妇科手术视频中相关事件识别的全面数据集,并通过使用几种 CNN-RNN 架构评估事件识别性能。此外,我们介绍并评估了一个混合变压器架构,结合自定义的训练 - 推理框架,用于识别腹腔镜手术视频中的四个特定事件。借助 Transformer 网络,我们的提出的架构利用帧间依赖性来对抗相关内容遮挡,运动模糊和手术场景变化的不良影响,从而显著提高事件识别准确性。此外,我们提出了一种用于处理手术场景和外科医生技能水平变化的帧采样策略,以实现高时间分辨率的事件识别。通过一系列广泛的实验证明了我们所提出的方法在事件识别方面相比传统的 CNN-RNN 架构的卓越性能。
Dec, 2023
通过自我监督学习,在不同手术数据集上进行预训练,从而灵活地利用多样化的手术数据,为各种手术下游任务学习与任务无关的表示,研究发现预训练数据集的组成严重影响自我监督学习方法在各种下游任务上的有效性,对于规模化应用自我监督学习方法应充分考虑预训练数据集的组成。
Dec, 2023