CVPRMar, 2024

OmniVid: 通用视频理解的生成框架

TL;DR通过使用语言作为标签并引入时间和区域标记,我们寻求统一视频理解任务的输出空间,以建立全共享的编码器 - 解码器架构,并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果,为更普遍的视频理解提供了新的观点。