图像不会骗人：将深度视觉语义特征传递到大规模多模态学习中的排序

Nov, 2015

图像不会骗人：将深度视觉语义特征传递到大规模多模态学习中的排序

Images Don't Lie: Transferring Deep Visual Semantic Features to Large-Scale Multimodal Learning to Rank

Corey Lynch, Kamelia Aryafar, Josh Attenberg

TL;DR本文介绍了一种多模式学习排序模型，它将传统特征和来自深度卷积神经网络的视觉语义特征相结合，用于电子商务中的搜索结果排序。在 Etsy 线上商场的大规模实验中，我们验证了多模式表示显著提高了排名质量，并展示了图像信息成功解开了文本模型难以区分的高度不同物品对的面纱。

Abstract

Search is at the heart of modern e-commerce. As a result, the task of ranking search results automatically (learning to rank) is a multibillion dollar machine learning problem. Traditional models optimize over a

learning to rank multimodal learning convolutional neural network image features e-commerce

发现论文，激发创造

基于深度学习的大规模电子商务视觉推荐和搜索

本文提出了一种统一的端到端方法，用于构建面向电子商务的大规模视觉搜索和推荐系统。我们通过统一的深度卷积神经网络结构，VisNet，来学习嵌入，以捕捉几个语义颗粒度的视觉相似性概念，从而证明了我们方法在 Exact Street2Shop 数据集上的优越性能，为 Flipkart 的 50M 产品目录提供了支持 2K 的视觉推荐查询，从而产生了显著的业务影响。

Mar, 2017

高效大规模视觉表征学习

本文提出了一种单模态视觉表征学习的方法，主要用于电子商务中的产品推荐、搜索和广告应用，包括预训练骨干架构、卷积神经网络和视觉变换器家族等。通过离线和在线的方式，我们对实验方法进行了评估和分析，并提出了新的文本到图像生成离线评估方法来评估视觉相似度的推荐系统，在 Etsy 的生产环境中进行了机器学习系统的应用。

May, 2023

一张图 worth 一千字吗？一种深度多模融合 e-commerce 商品分类模型

该论文采用决策级融合方法将文本和图像输入用于产品分类预测，通过训练深度神经网络和学习网络来选择输入类型，并成功地提高了大规模产品分类数据集上的准确性。

Nov, 2016

从语义检索到成对排名：在电子商务搜索中应用深度学习

本文介绍了如何将深度学习模型应用到电商平台搜索系统的重要阶段之一 - 商品检索和排名中，以提高语义检索和个性化排名的效果。

Mar, 2021

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

大规模语言模型在多模态搜索中的应用

多模态搜索系统结合图像和文本，通过增强匹配能力、推理能力和上下文感知的查询解析和重写，提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上，我们引入了一种新颖的多模态搜索模型，并提出了结合大型语言模型的搜索界面，以实现与用户的对话式互动和上下文考虑的搜索体验的升级，为购物助手提供了类人交互和全面的搜索体验。

Apr, 2024

T-VSE: 基于 Transformer 的视觉语义嵌入

本文研究了基于 Transformer 模型的跨模态图文检索问题，发现在大规模电商产品数据集上，相比于 RNN 等传统语言模型以及简单的平均词向量模型，基于 Transformer 的跨模态嵌入表现更加优秀。

May, 2020

深度卷积排序多标签图像注释

通过结合卷积结构和近似 top-k 排名目标，利用深度神经网络的特征，改进了多标签图像注释，并在 NUS-WIDE 数据集上实现了比传统视觉特征高大约 10% 的性能表现，提出了一种有效的方法。

Dec, 2013

基于注意力机制的多模态数据顺序推荐系统

提出了一种基于多模态数据的关注机制的序列推荐方法，该方法利用图像、文字和类别等多模态数据，利用 attention 操作和多任务学习损失，提高了推荐系统的性能。

May, 2024

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Apr, 2018