Sep, 2024

Video-XL:超长视觉语言模型用于小时级视频理解

TL;DR本研究针对现有多模态大语言模型在处理极长视频时面临的挑战,特别是上下文长度限制和视觉清晰度下降的问题,提出了Video-XL模型。通过引入视觉上下文潜在总结技术,该模型高效地将视觉信息压缩并实现了在长视频理解基准上的优异表现,展示了其在视频摘要、监控异常检测和广告投放识别等应用中的重要潜力。