Sep, 2024

VidLPRO:针对机器人和腹腔镜手术的视频语言预训练框架

TL;DR本文提出了VidLPRO,一个专为机器人和腹腔镜手术设计的视频语言预训练框架,旨在填补现有模型对复杂时间动态的捕捉和视频与语言对齐的不足。通过结合视频文本对比学习、视频文本匹配和掩码语言建模目标,VidLPRO在零-shot手术阶段识别中实现了领先的性能,相较于现有模型提高了最多21.5%的准确率和15.7%的F1分数,具有重要的应用潜力。