Jun, 2024

走向面向事件的长视频理解

TL;DR通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM,本研究表明 GPT-4o 模型超过了最佳开源模型 41.42%,在 Event-Bench 上表现出 53.33 的整体准确率,优于最先进的开源模型和 GPT-4V。