高效大规模视觉表征学习
本文提出了一种统一的端到端方法,用于构建面向电子商务的大规模视觉搜索和推荐系统。我们通过统一的深度卷积神经网络结构,VisNet,来学习嵌入,以捕捉几个语义颗粒度的视觉相似性概念,从而证明了我们方法在 Exact Street2Shop 数据集上的优越性能,为 Flipkart 的 50M 产品目录提供了支持 2K 的视觉推荐查询,从而产生了显著的业务影响。
Mar, 2017
本研究提出了一种实例为中心的多模态预训练范式 ECLIP,通过引入可学习实例查询的解码器架构和两个预处理任务,从 1 亿个电子商务相关数据中预训练出语义丰富、稳健的模型,进而在广泛的下游任务中超越现有方法,证明其在现实世界中的广泛可转移性。
Apr, 2023
本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合,运用 20 个模型的结合方式,在对 coarse labels 进行两阶段训练的基础上,进行了精细化的自我监督训练。此外,该模型通过使用文本描述训练图像作为监督信号,对图像编码器进行了微调。最终,该模型达到了 0.7623 MAR@10 的成绩,超过了所有竞争对手。
Jul, 2022
本文介绍了一种多模式学习排序模型,它将传统特征和来自深度卷积神经网络的视觉语义特征相结合,用于电子商务中的搜索结果排序。在 Etsy 线上商场的大规模实验中,我们验证了多模式表示显著提高了排名质量,并展示了图像信息成功解开了文本模型难以区分的高度不同物品对的面纱。
Nov, 2015
本文提出一种统一的视觉 - 语言建模方法,用于电子商务同款产品检索,包括取样和对比学习,可进行跨模态产品检索和用户交互搜索,离线和在线测试都表明其卓越的检索性能和吸引更多点击和转化的能力,并已在全球最大的 B2B 电子商务平台中部署用于同款产品检索。
Feb, 2023
本文介绍了一种用于 eBay 可视搜索挑战的弱监督商品检索的新型解决方案,该方案通过使用来自商品标题的伪属性作为多标签分类的真实值,采用多个强大的 backbones,包括白化,重排序和模型集成等后处理技术,实现了 71.53% 的 MAR,为 “Involution King” 在排行榜上获得第二名。
Aug, 2022
本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。
Feb, 2021
本文提出一种新颖的端到端方法,用于可扩展的视觉搜索基础设施,通过深度学习技术实现对 eBay 大型图像库的视觉搜索,使用监督式方法优化搜索结果,并采用紧凑二进制签名技术,同时保证了满足搜索准确度与精确度的可扩展性。
Jun, 2017
本文提出了 FashionViL,一个针对时尚领域的视觉语言(V+L)表征学习框架,包含两个周到设计的预训练任务:多视角对比学习和伪属性分类学习,以及一个基于 Transformer 的灵活多用途模型架构,将其广泛适用于各种 V+L 任务,并在 5 个下游任务上取得了最佳成果。
Jul, 2022