Nov, 2024
AdaCM$^2$: 理解极长视频的自适应跨模态记忆压缩
AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive
Cross-Modality Memory Reduction
TL;DR本研究旨在解决现有视频理解模型处理长视频时的局限性,尤其是在复杂问题回答任务中的效率问题。通过首次引入自适应跨模态记忆压缩方法,AdaCM$^2$有效地提高了视频与文本的对齐能力,同时显著降低了内存使用。实验结果表明,AdaCM$^2$在多个数据集上实现了最先进的性能,尤其在LVU数据集中各任务的表现提高了4.5%,同时GPU内存消耗减少了65%。