Nov, 2024
TS-LLaVA:通过缩略图和采样构建视觉标记以实现无训练视频大型语言模型
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for
Training-Free Video Large Language Models
TL;DR本研究针对现有视频大型语言模型数据稀缺的问题,提出了一种无训练的视频理解方法TS-LLaVA,通过缩略图和采样策略构建视觉标记。研究表明,该方法在多个基准测试中实现了最新的状态,并在MVBench基准测试中优于GPT-4V,且在MLVU基准测试中与72B的训练型视频语言模型Video-LLaMA2表现相当。