Jun, 2024

VELOCITI:视频语言模型能否通过时间连接语义概念?

TL;DRVELOCITI 是一个基于复杂电影剪辑和密集的语义角色标签注释的新基准,用于测试视频语言模型的感知和绑定能力,结果显示当前最先进的模型在感知测试上表现得相当好,但在绑定测试上的准确性接近随机,表明它们在绑定测试中失败。