CVPRApr, 2024

MA-LMM:用于长期视频理解的增强记忆大型多模态模型

TL;DR通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。