Apr, 2024

LoSA:用于缩放端到端时序动作定位的长短程适配器

TL;DR通过引入第一个专门为处理未修剪视频的 TAL 设计的内存和参数高效的背骨适配器 LoSA,本研究在标准 TAL 基准测试 THUMOS-14 和 ActivityNet-v1.3 上明显优于现有方法,通过使视频骨干可以适应超过十亿参数的模型,如 VideoMAEv2(ViT-g),有效地扩展了端到端骨干适应的能力,并利用了这些模型进行非仅在头部的迁移学习。