May, 2024

使用大型语言模型的流式长视频理解

TL;DR这篇论文介绍了 VideoStreaming,一种用于视频理解的先进视觉语言大型模型 (VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。