Jun, 2024
VELOCITI:视频语言模型能否通过时间连接语义概念?
VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time?
Darshana Saravanan, Darshan Singh, Varun Gupta, Zeeshan Khan, Vineet Gandhi...
TL;DRVELOCITI 是一个基于复杂电影剪辑和密集的语义角色标签注释的新基准,用于测试视频语言模型的感知和绑定能力,结果显示当前最先进的模型在感知测试上表现得相当好,但在绑定测试上的准确性接近随机,表明它们在绑定测试中失败。