BriefGPT.xyz
大模型
Ask
alpha
关键词
visual-linguistic representation learning
搜索结果 - 1
CVPR
使用文本驱动的软掩膜进行多模态表征学习
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域
→
PDF
a year ago
Prev
Next