Jun, 2024

Flash-VStream:基于内存的长视频实时理解

TL;DR在这篇论文中,我们介绍了一种名为 Flash-VStream 的视频语言模型,它模拟了人类的记忆机制,能够实时处理极长的视频流并同时对用户查询进行响应。与现有模型相比,Flash-VStream 在推理延迟和 VRAM 消耗方面实现了显著的减少,并在在线视频流理解领域表现出了优异的性能。我们还提出了 VStream-QA,一个专门为在线视频流理解设计的新型问答基准,与现有方法在该基准上的比较结果显示了我们方法在这个具有挑战性场景中的优势。此外,我们的方法在离线场景中也取得了最先进的性能。