May, 2024

HecVL:零样本手术阶段识别的分层视频语言预训练

TL;DR通过使用自然语言实现手术模型的普适性训练,本研究提出了一种名为 HecVL 的新型分层视频 - 文本预训练方法,其中通过构建层次化的视频 - 文本配对数据集,通过剪辑级、阶段级和视频级的文本信息学习了多模态嵌入空间,并使用对比学习的框架进行训练,使模型能够实现零样本手术阶段识别,并且在不同手术程序和医疗中心之间实现了模型的迁移。