BriefGPT.xyz
Ask
alpha
关键词
vision-language applications
搜索结果 - 3
大规模网页图像 - 文本数据集用于视觉概念理解
通过商业购物网站提供的大规模公共数据集‘Let's Go Shopping (LGS)’,我们发现现存基准数据集的分类器在电子商务数据上无法很好地进行泛化,而特定的自我监督视觉特征提取器则可以更好地进行泛化,此外,LGS 数据集的高质量电子
→
PDF
6 months ago
MM
目录短语引导(CPG):用于电子商务视觉语言应用中将产品文本属性与产品图像关联
我们提出了 Catalog Phrase Grounding (CPG) 模型,能够将产品的文本数据(标题、品牌)关联到相应的产品图像区域(孤立的产品区域、品牌标志区域),用于电子商务视觉语言应用。我们使用最先进的调制多模态 Transfo
→
PDF
10 months ago
ACL
ConaCLIP:探索全连接知识交互图的蒸馏,用于轻量级文本图像检索
本文探讨了如何将知识蒸馏技术扩展到双模态模型情况,并提出了一个全连接知识交互图(Cona)技术,用于跨模态预训练蒸馏,实验证明该方法具有显著的效果。
PDF
a year ago
Prev
Next