高效大规模视觉表征学习

May, 2023

Efficient Large-Scale Vision Representation Learning

Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin Mejran...

TL;DR本文提出了一种单模态视觉表征学习的方法，主要用于电子商务中的产品推荐、搜索和广告应用，包括预训练骨干架构、卷积神经网络和视觉变换器家族等。通过离线和在线的方式，我们对实验方法进行了评估和分析，并提出了新的文本到图像生成离线评估方法来评估视觉相似度的推荐系统，在 Etsy 的生产环境中进行了机器学习系统的应用。

Abstract

In this article, we present our approach to single-modality vision representation learning. Understanding vision representations of product content is vital for recommendations, search, and advertising applications in e-commerce. We detail and contrast techniques used to fine tune large-scale

vision representation learning product content pretrained backbone architectures visually similar ad recommendations text-to-image generative offline evaluation method

发现论文，激发创造

基于深度学习的大规模电子商务视觉推荐和搜索

本文提出了一种统一的端到端方法，用于构建面向电子商务的大规模视觉搜索和推荐系统。我们通过统一的深度卷积神经网络结构，VisNet，来学习嵌入，以捕捉几个语义颗粒度的视觉相似性概念，从而证明了我们方法在 Exact Street2Shop 数据集上的优越性能，为 Flipkart 的 50M 产品目录提供了支持 2K 的视觉推荐查询，从而产生了显著的业务影响。

Mar, 2017

电商大规模多模态预训练中的实例级表示学习

本研究提出了一种实例为中心的多模态预训练范式 ECLIP，通过引入可学习实例查询的解码器架构和两个预处理任务，从 1 亿个电子商务相关数据中预训练出语义丰富、稳健的模型，进而在广泛的下游任务中超越现有方法，证明其在现实世界中的广泛可转移性。

Apr, 2023

V$^2$L：将视觉和视觉语言模型应用于大规模产品检索

本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合，运用 20 个模型的结合方式，在对 coarse labels 进行两阶段训练的基础上，进行了精细化的自我监督训练。此外，该模型通过使用文本描述训练图像作为监督信号，对图像编码器进行了微调。最终，该模型达到了 0.7623 MAR@10 的成绩，超过了所有竞争对手。

Jul, 2022

图像不会骗人：将深度视觉语义特征传递到大规模多模态学习中的排序

本文介绍了一种多模式学习排序模型，它将传统特征和来自深度卷积神经网络的视觉语义特征相结合，用于电子商务中的搜索结果排序。在 Etsy 线上商场的大规模实验中，我们验证了多模式表示显著提高了排名质量，并展示了图像信息成功解开了文本模型难以区分的高度不同物品对的面纱。

Nov, 2015

电商同款商品检索的统一视觉语言表征建模

本文提出一种统一的视觉 - 语言建模方法，用于电子商务同款产品检索，包括取样和对比学习，可进行跨模态产品检索和用户交互搜索，离线和在线测试都表明其卓越的检索性能和吸引更多点击和转化的能力，并已在全球最大的 B2B 电子商务平台中部署用于同款产品检索。

Feb, 2023

弱监督表示学习在大规模产品检索中的应用

本文介绍了一种用于 eBay 可视搜索挑战的弱监督商品检索的新型解决方案，该方案通过使用来自商品标题的伪属性作为多标签分类的真实值，采用多个强大的 backbones，包括白化，重排序和模型集成等后处理技术，实现了 71.53% 的 MAR，为 “Involution King” 在排行榜上获得第二名。

Aug, 2022

基于视觉任务适应基准的表示学习的大规模研究

通过自我监督、生成模型等方法训练的视觉特征表示可以非常好的通用于各种不同的视觉任务，并且对于一些任务可以取代需要大量标注数据的监督学习方法

Oct, 2019

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

eBay 的视觉搜索

本文提出一种新颖的端到端方法，用于可扩展的视觉搜索基础设施，通过深度学习技术实现对 eBay 大型图像库的视觉搜索，使用监督式方法优化搜索结果，并采用紧凑二进制签名技术，同时保证了满足搜索准确度与精确度的可扩展性。

Jun, 2017

FashionViL：面向时尚的视觉与语言表征学习

本文提出了 FashionViL，一个针对时尚领域的视觉语言（V+L）表征学习框架，包含两个周到设计的预训练任务：多视角对比学习和伪属性分类学习，以及一个基于 Transformer 的灵活多用途模型架构，将其广泛适用于各种 V+L 任务，并在 5 个下游任务上取得了最佳成果。

Jul, 2022