BriefGPT.xyz
Ask
alpha
关键词
video-text matching
搜索结果 - 2
CVPR
针对检索的目标感知视频语言预训练
本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers,使用边界框和物体标签来引导训练过程,将对象表示法引入视频 - 语言架构中,从而提高了视频文本匹配任务的性能。
PDF
3 years ago
CVPR
分层图推理的细粒度视频文本检索
提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型,将 video-text matching 分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表
→
PDF
4 years ago
Prev
Next