普通外科视觉变换器：用于普通外科的视频预训练基础模型

Mar, 2024

普通外科视觉变换器：用于普通外科的视频预训练基础模型

General surgery vision transformer: A video pre-trained foundation model for general surgery

Samuel Schmidgall, Ji Woong Kim, Jeffery Jopling, Axel Krieger

TL;DR通过开源最大的外科手术视频数据集，提出了视觉预训练技术和 GSViT 算法，向外科手术应用提供实时的视频处理和改进性能。

Abstract

The absence of openly accessible data and specialized foundation models is a major barrier for computational research in surgery. Toward this, (i) we open-source the largest dataset of →

openly accessible data specialized foundation models general surgery videos video pre-training gsvit

发现论文，激发创造

用于提升机器人辅助手术自主性的通用基础模型

通过开发多模态、多任务、视觉 - 语言 - 行为模型，本文提出一条路径，以增加机器人辅助手术中机器人的自治性，最终我们认为，机器人辅助手术能够从通用模型中获益，并提供三个指导性行动以增加机器人辅助手术的自治性。

Jan, 2024

通过观看数百个手术视频讲座学习多模态表示

该研究使用手术视频讲座来进行多模态表示学习，通过自动生成的文本转录来解决手术视频中的语言挑战，提出了一种新的对齐视频和文本嵌入的方法 SurgVLP，并介绍了一些用于手术的视觉与语言任务作为评估标准。

Jul, 2023

LoViT：用于外科阶段识别的长视频 Transformer

本文介绍了一种称为长视频变压器（LoViT）的两阶段方法，用于融合短期和长期时间信息的融合，可以比当前的方法更好地处理手术过程中的长视频，并通过将本地和全局特征结合起来使用多尺度时间聚合器对手术相位进行分类。研究发现，与现有的方法相比，LoViT 在两个手术视频数据集上的表现最优

May, 2023

ViTALS: 外科肾切除术中行动定位的视觉变换器

通过引入名为 ViTALS 的新模型，结合层次式扩张时间卷积层和层间残差连接，来定位手术肾切除视频中的行动位置，实现了 89.8% 和 66.1% 的准确率，验证了其有效性。

May, 2024

内窥镜视频分析基础模型：大规模自监督预训练

本文介绍了一种可以应用于内窥镜视频分析的基础模型 Endo-FM，其使用全局和局部视图进行自监督下预训练，并能够通过微调来应用于不同任务，其优于当前的自监督预训练和适配器转移学习方法。

Jun, 2023

GLSFormer: 门控 - 长短序列变换器用于手术视频中的步骤识别

提出了一种基于视觉转换器的方法来联合学习时空特征，以自动进行手术步骤识别，通过在两个白内障手术视频数据集上的广泛评估，证明了该方法在自动手术步骤识别方面具有优异的性能。

Jul, 2023

扩散模型的交互式生成腹腔镜视频

通过使用扩散模型结合零样本视频扩散方法，通过文本指定手术动作并通过分割掩模指导生成真实的腹腔镜图像和视频，本研究在提高培训过程中迈出了重要一步，评估了生成的图像的保真度和事实正确性，获得了 FID 指标为 38.097 和 F1-score 指标为 0.71。

Apr, 2024

胸科手术视频分析与手术阶段识别

该研究论文介绍了一种利用视频数据进行手术阶段识别的方法，旨在为自动化工作流分析提供手术程序的全面理解。研究表明，在手术阶段识别任务中，视频基分类器相比于基于图片的分类器具有更高的效果。

Jun, 2024

混合变压器在腹腔镜妇科视频中的事件识别

我们介绍了一种用于腹腔镜妇科手术视频中相关事件识别的全面数据集，并通过使用几种 CNN-RNN 架构评估事件识别性能。此外，我们介绍并评估了一个混合变压器架构，结合自定义的训练 - 推理框架，用于识别腹腔镜手术视频中的四个特定事件。借助 Transformer 网络，我们的提出的架构利用帧间依赖性来对抗相关内容遮挡，运动模糊和手术场景变化的不良影响，从而显著提高事件识别准确性。此外，我们提出了一种用于处理手术场景和外科医生技能水平变化的帧采样策略，以实现高时间分辨率的事件识别。通过一系列广泛的实验证明了我们所提出的方法在事件识别方面相比传统的 CNN-RNN 架构的卓越性能。

Dec, 2023

外科计算机视觉的启动

通过自我监督学习，在不同手术数据集上进行预训练，从而灵活地利用多样化的手术数据，为各种手术下游任务学习与任务无关的表示，研究发现预训练数据集的组成严重影响自我监督学习方法在各种下游任务上的有效性，对于规模化应用自我监督学习方法应充分考虑预训练数据集的组成。

Dec, 2023