V$^2$L：将视觉和视觉语言模型应用于大规模产品检索

CVPRJul, 2022

V$^2$L：将视觉和视觉语言模型应用于大规模产品检索

V$^2$L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval

Wenhao Wang, Yifan Sun, Zongxin Yang, Yi Yang

TL;DR本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合，运用 20 个模型的结合方式，在对 coarse labels 进行两阶段训练的基础上，进行了精细化的自我监督训练。此外，该模型通过使用文本描述训练图像作为监督信号，对图像编码器进行了微调。最终，该模型达到了 0.7623 MAR@10 的成绩，超过了所有竞争对手。

Abstract

product retrieval is of great importance in the ecommerce domain. This paper introduces our 1st-place solution in eBay eProduct visual search

product retrieval ecommerce visual search ensemble models fine-grained self-supervised training

发现论文，激发创造

弱监督表示学习在大规模产品检索中的应用

本文介绍了一种用于 eBay 可视搜索挑战的弱监督商品检索的新型解决方案，该方案通过使用来自商品标题的伪属性作为多标签分类的真实值，采用多个强大的 backbones，包括白化，重排序和模型集成等后处理技术，实现了 71.53% 的 MAR，为 “Involution King” 在排行榜上获得第二名。

Aug, 2022

电商同款商品检索的统一视觉语言表征建模

本文提出一种统一的视觉 - 语言建模方法，用于电子商务同款产品检索，包括取样和对比学习，可进行跨模态产品检索和用户交互搜索，离线和在线测试都表明其卓越的检索性能和吸引更多点击和转化的能力，并已在全球最大的 B2B 电子商务平台中部署用于同款产品检索。

Feb, 2023

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

高效大规模视觉表征学习

本文提出了一种单模态视觉表征学习的方法，主要用于电子商务中的产品推荐、搜索和广告应用，包括预训练骨干架构、卷积神经网络和视觉变换器家族等。通过离线和在线的方式，我们对实验方法进行了评估和分析，并提出了新的文本到图像生成离线评估方法来评估视觉相似度的推荐系统，在 Etsy 的生产环境中进行了机器学习系统的应用。

May, 2023

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计，具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。

Oct, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022