Jun, 2024
走向面向事件的长视频理解
Towards Event-oriented Long Video Understanding
Yifan Du, Kun Zhou, Yuqi Huo, Yifan Li, Wayne Xin Zhao...
TL;DR通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM,本研究表明 GPT-4o 模型超过了最佳开源模型 41.42%,在 Event-Bench 上表现出 53.33 的整体准确率,优于最先进的开源模型和 GPT-4V。