Apr, 2024

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

TL;DR基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器,通过特殊设计的记忆机制,无需额外的可训练时序模块,使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频,提出了 MovieChat,实现了长视频理解的最新性能,并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。