Sep, 2024
从秒到小时:多模态大语言模型在综合长视频理解上的评审
From Seconds to Hours: Reviewing MultiModal Large Language Models on
Comprehensive Long Video Understanding
TL;DR本研究针对长视频理解面临的独特挑战,探讨了多模态大语言模型(MM-LLMs)的设计与训练差异。通过总结现有研究进展,本论文揭示了在空间时间细节和长期依赖性方面的关键问题,并展示了MM-LLMs在不同视频长度理解基准测试中的表现,为未来长视频理解的方向提供了重要见解。