Jun, 2024

多模态引导的开放词汇时态行为定位

TL;DROVFormer 是一种新型的开放词汇框架,通过使用任务特定的提示作为输入,利用大型语言模型获得行动类别的丰富描述,并引入了交叉注意机制来学习类别表示和帧级视频特征之间的对齐,以及采用了两阶段训练策略,包括与更大词汇数据集的训练和对下游数据的微调,从而推广到新颖类别。在 THUMOS14 和 ActivityNet-1.3 基准测试上的综合评估证明了我们方法的有效性。