Aug, 2024

袋鼠:支持长视频输入的强大视频语言模型

TL;DR本研究针对大语言模型扩展至视频数据的难题,提出了一种新的长视频处理方法Kangaroo。该模型通过数据策划系统构建高质量注释的大规模数据集,并设计了具有逐渐增加分辨率和输入帧数的训练流程。实验结果表明Kangaroo在视频理解基准测试中表现优异,尤其是在长视频上超越了许多大型模型。