May, 2024

视频理解基础模型综述

TL;DR此研究简化了近 200 种视频基础模型,对 14 个不同的视频任务进行了综合概述,并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现,图像为基础的模型在大多数视频理解任务上持续表现优异,而利用多种模式的通用基础模型在视频任务上表现卓越。