May, 2025

StreamBridge:将离线视频大语言模型转变为主动流媒体助手

TL;DR本文提出了StreamBridge,这一框架有效地将离线视频大语言模型转变为可进行流媒体处理的模型,解决了现有模型在在线场景下的多轮实时理解能力有限和缺乏主动响应机制的问题。通过引入记忆缓冲和轻量级激活模型,StreamBridge显著提升了离线视频大语言模型在流媒体理解任务中的表现,并在规模化的数据集Stream-IT上的实验中超越了诸如GPT-4o和Gemini 1.5 Pro等专有模型。