Sep, 2024

从秒到小时:多模态大语言模型在综合长视频理解上的评审

TL;DR本研究针对长视频理解面临的独特挑战,探讨了多模态大语言模型(MM-LLMs)的设计与训练差异。通过总结现有研究进展,本论文揭示了在空间时间细节和长期依赖性方面的关键问题,并展示了MM-LLMs在不同视频长度理解基准测试中的表现,为未来长视频理解的方向提供了重要见解。