Mar, 2024

面向手术姿势识别的零样本基于提示的视频编码器

TL;DR利用 Bridge-Prompt 框架,我们对预训练的 vision-text 模型 (CLIP) 进行微调,以在外科手术视频中进行手势识别。实验结果显示基于提示的视频编码器在外科手势识别任务中优于标准编码器,尤其在零样本情况下表现出强大性能。这些预训练 + 微调的视频编码器模型在外科机器人学中提供了重要的视觉表示,特别适用于手势识别任务。