Nov, 2023

LLaMA-VID: 大型语言模型中的图像抵值 2 个令牌

TL;DR通过引入 LLaMA-VID 方法处理视频和图像理解中的标记生成挑战,减轻了长视频处理中的计算负担,并证明在大多数基于视频或图像的基准测试中能超越之前的方法。