Jul, 2023

电影对话:从密集令牌到稀疏记忆的长视频理解

TL;DR视频理解系统 MovieChat 利用大型语言模型和视频基础模型,通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。