BriefGPT.xyz
Ask
alpha
关键词
video event understanding ability
搜索结果 - 1
走向面向事件的长视频理解
通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM,本研究表明 GPT-4o 模型超过了最佳开源模型 41.42%,在 E
→
PDF
16 days ago
Prev
Next