Apr, 2025

基于时间动态上下文的多模态长视频建模

TL;DR本研究解决了现有模型在处理长视频时因上下文长度限制和信息量庞大而造成的信息损失问题。提出了一种名为时间动态上下文(TDC)的动态长视频编码方法,通过语义一致性场景分割和基于查询的Transformer压缩时间上下文,有效地聚合视频、音频以及文本信息。实验结果表明,该方法在视频理解和音视理解基准测试中表现优越,具有重要的应用潜力。