CVPRApr, 2024

考拉:关键帧条件化长视频 - LLM

TL;DR提出了一种轻量级自监督方法,将可学习的时空查询引入预训练模型以适应长视频,通过在 HowTo100M 数据集上进行训练,并在零样本长视频理解基准测试中表现出良好性能。