Aug, 2023

ViGT:在 Transformer 模型中具有可学习令牌的无需提议的视频定位

TL;DR基于视觉和语言描述,本研究提出了一种新的边界回归范式来定位视频中的行为或事件,通过一个可学习的回归标记来预测时间边界,而非跨模态特征,取得了良好的效果并得到了进一步验证。