CVPRJun, 2024

视频 LLM-online:用于流媒体视频的在线视频大语言模型

TL;DR通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。