BriefGPT.xyz
Ask
alpha
关键词
genuine long-form video understanding
搜索结果 - 1
MoVQA:一项用于长篇电影理解的多功能问答基准
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索
→
PDF
7 months ago
Prev
Next