BriefGPT.xyz
Ask
alpha
关键词
temporal comprehension
搜索结果 - 2
MMBench-Video:一种用于整体视频理解的长形多镜头基准
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
PDF
21 days ago
CVPR
解耦参照视频分割中的静态与层级运动感知
视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化,并采用对比学习来区分视觉上相似的对象的运动,取得了在五个数据集上的最先进性能,并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。
PDF
3 months ago
Prev
Next