BriefGPT.xyz
Ask
alpha
关键词
text-relevant image patch selection
搜索结果 - 1
基于文本相关图像修补选择的高效视觉与语言预训练
TRIPS 是一种高效的 VLP 方法,通过在视觉主干中引入一个文本导向的补丁选择层,以渐进的方式减少视觉序列,从而加速训练和推理过程,并通过动态计算文本相关的视觉注意力来识别注意力图像令牌,以无缝融合不注意的令牌。TRIPS 不添加额外参
→
PDF
6 months ago
Prev
Next