BriefGPT.xyz
Ask
alpha
关键词
local visual context
搜索结果 - 1
MILES: 注入语义来实现视频文本检索的视觉 BERT 预训练
本文应用了基于遮蔽的视觉建模(Masked visual modeling)技术在双编码器(dual-encoder)架构下进行视频文本预训练,并利用额外的视频编码器作为 “tokenizer” 去产生预测目标,并通过在空间和时间维度上进行
→
PDF
2 years ago
Prev
Next