BriefGPT.xyz
Ask
alpha
关键词
cross attention methods
搜索结果 - 1
冻结图像编码器的细粒度文本 - 视频检索
提出了 CrossTVR,一个两阶段的文本视频检索架构。第一阶段利用现有的文本 - 视频检索方法进行候选选择,第二阶段提出了一个新颖的解耦视频文本交叉注意力模块,以捕捉时空维度中细粒度的多模态信息。通过在细粒度检索中采用冻结的 CLIP 模
→
PDF
a year ago
Prev
Next