面向手术姿势识别的零样本基于提示的视频编码器

Mar, 2024

面向手术姿势识别的零样本基于提示的视频编码器

Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition

Mingxing Rao, Yinhong Qin, Soheil Kolouri, Jie Ying Wu, Daniel Moyer

TL;DR利用 Bridge-Prompt 框架，我们对预训练的 vision-text 模型 (CLIP) 进行微调，以在外科手术视频中进行手势识别。实验结果显示基于提示的视频编码器在外科手势识别任务中优于标准编码器，尤其在零样本情况下表现出强大性能。这些预训练 + 微调的视频编码器模型在外科机器人学中提供了重要的视觉表示，特别适用于手势识别任务。

Abstract

Purpose: surgical video is an important data stream for gesture recognition. Thus, robust visual encoders for those data-streams is simila

surgical video gesture recognition visual encoders bridge-prompt zero-shot transfer

发现论文，激发创造

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

基于多模态数据的手术手势分割和识别的分层半监督学习框架

通过使用多模态数据、分层半监督学习框架、基于 Transformer 的网络等方法，该研究提出了一种用于手术姿势分割和手势识别的技术，并在公开可用的 JIGSAWS 数据库上进行了评估，得到了较高的分割和识别准确度。

Jul, 2023

HecVL：零样本手术阶段识别的分层视频语言预训练

通过使用自然语言实现手术模型的普适性训练，本研究提出了一种名为 HecVL 的新型分层视频 - 文本预训练方法，其中通过构建层次化的视频 - 文本配对数据集，通过剪辑级、阶段级和视频级的文本信息学习了多模态嵌入空间，并使用对比学习的框架进行训练，使模型能够实现零样本手术阶段识别，并且在不同手术程序和医疗中心之间实现了模型的迁移。

May, 2024

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

逐步思考：机器人手术视频中错误检测的连续手势提示

本论文提出了一种新颖的实时端到端错误检测框架，称为 Chain-of-Thought (COG) prompting，利用手术视频中的上下文信息来提高机器人辅助微创手术的安全性和效果。通过使用 transformer、attention 和多阶段时序卷积网络等方法，该方法在公共基准 RMIS 数据集 JIGSAWS 上优于目前最先进方法的 F1 分数、准确率和 Jaccard 指数，并且平均每帧处理时间为 6.69 毫秒。

Jun, 2024

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

机器人辅助手术中使用 Transformer 模型识别和预测手术手势和路径

本篇论文提出了一种新的方法，基于改进的 Transformer 模型，利用手术机器人端效应器当前的运动数据，可以实现手势识别、手势预测、轨迹预测等三个任务，能够实现近乎实时的手术活动识别和预测，实验结果表明该方案可以比同类方法表现更好。

Dec, 2022

Videoprompter: 零 - shot 视频理解的一组基础模型

本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架，在零样本设置中引入了两个关键改进，提高了视觉 - 语言模型的性能，并在视频理解方面展示了一致的改进。

Oct, 2023

使用视觉 - 语言模型的可提示手术器械分割

该研究提出了一种新颖的文本可提示的手术器械分割方法，利用预训练的图像和文本编码器作为模型骨干，其中包含注意力和卷积的提示方案，以及增强图像特征的部分，以提高手术器械分割性能。

Jun, 2023

Bridge-Prompt: 论说明视频中的序数动作理解

本文提出了基于 Bridge-Prompt（Br-Prompt）的框架，使用文本提示来模拟相邻行为之间的语义，并通过对比方法共同训练文本编码器和视频编码器。Br-Prompt 在几个视频数据集上均取得了最先进的成果。

Mar, 2022