Apr, 2024

测试时零样本时序动作定位

TL;DR通过引入一种新的方法 (T3AL),该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation,并采用自我监督学习的启发式程序进行动作区域定位,使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案,实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法,证实了测试时间自适应方法的益处。