Feb, 2025
视频检索增强生成:极长上下文视频处理
VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context
Videos
TL;DR本研究针对现有检索增强生成方法在长视频理解方面的空白,提出了VideoRAG框架。其创新之处在于采用双通道架构,有效整合图基文本知识和多模态上下文编码,使其能够处理无限长度的视频,并通过构建跨视频的知识图谱维持语义依赖性。实证结果表明,VideoRAG在处理长视频的性能上显著优于现有的RAG和长视频理解方法。