BriefGPT.xyz
大模型
Ask
alpha
关键词
temporal-aware video features
搜索结果 - 1
CVPR
通向可泛化的视频片段检索:通过将视觉动态注入到图像 - 文本预训练中实现
研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法 Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频 - 文本对齐,该方法在现有 VMR 方法的基础上
→
PDF
a year ago
Prev
Next