Jun, 2024
多模态引导的开放词汇时态行为定位
Open-Vocabulary Temporal Action Localization using Multimodal Guidance
Akshita Gupta, Aditya Arora, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan...
TL;DROVFormer 是一种新型的开放词汇框架,通过使用任务特定的提示作为输入,利用大型语言模型获得行动类别的丰富描述,并引入了交叉注意机制来学习类别表示和帧级视频特征之间的对齐,以及采用了两阶段训练策略,包括与更大词汇数据集的训练和对下游数据的微调,从而推广到新颖类别。在 THUMOS14 和 ActivityNet-1.3 基准测试上的综合评估证明了我们方法的有效性。