Dec, 2024

ReTaKe:减少长视频理解中的时间和知识冗余

TL;DR本研究针对现有视频大型语言模型在处理长序列时的限制,提出了一种新的训练无关的方法ReTaKe,结合DPSelect和PivotKV模块,以联合减少长视频理解中的时间和知识冗余。实验结果显示,ReTaKe能够支持4倍长的视频序列,并以最低的性能损失(1%)超越所有相似大小的视频LLM,甚至超过或持平于更大模型,具有显著的应用潜力。