电子商务中基于多模态感知的知识预训练

MMAug, 2021

电子商务中基于多模态感知的知识预训练

Knowledge Perceived Multi-modal Pretraining in E-commerce

Yushan Zhu, Huaixiao Tou, Wen Zhang, Ganqiang Ye, Hui Chen...

TL;DR该论文提出一种名为 K3M 的新方法，通过引入知识模态来进行多模态预训练，以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题，并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。

Abstract

In this paper, we address multi-modal pretraining of product data in the field of e-commerce. Current →

multi-modal pretraining e-commerce product data modality-missing modality-noise

发现论文，激发创造

M5Product：电商多模态预训练的自协调对比学习

该论文提出了一种基于 E-commerce 的多模态预训练数据集 M5Product 和一种名为 SCALE 的预训练框架，实现了不同模态特征的融合和学习，并在四个下游任务中展示了其优越性，该方法具有重要的数据集规模和多样性。

Sep, 2021

CommerceMM: 基于全检索的大规模商业多模态表示学习

CommerceMM 是一种多模态模型，其具备多种理解商业主题的能力，并能够推广到广泛的任务范围，包括多模态分类、图像 - 文本检索、查询 - 产品检索、图像 - 产品检索等。它使用预训练的方式，在图像 - 文本对上完成了 5 个有效的预训练任务，并在 9 个新的跨模态和跨配对检索任务上提出了名为 Omni-Retrieval 的方法。结果表明，该模型在细调后在 7 个与商业相关的下游任务中实现了最先进的性能。

Feb, 2022

一种用于电子商务产品分类的多模态后融合模型

本研究基于文本和图像模态探讨了一种基于多模态晚期融合的方法，以对 Rakuten 上的电子商务产品进行分类，并证明了该方法相比于单模态和其他多模态方法的有效性和优越性。该研究团队在 SIGIR 2020 电子商务研讨会数据挑战赛的多模态产品分类任务中以 0.9144 的 macro-F1 得分荣获第一名。

Aug, 2020

多模态知识发现和预训练的统一连续学习框架

该研究提出了将多模态预训练和知识发现统一到连续学习框架中的方法，以维护知识图作为基础，同时强化模型更新的外部知识引导作用在跨模态链接识别和预训练模型两方面取得了有效结果。

Jun, 2022

时尚电商中的多模态端到端产品匹配

在线市场与电子商务公司中，产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统，其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法，并得出结论，通过预先训练的图像和文本编码器的相对简单的投影，通过对比学习进行训练，可以在成本和性能方面取得最新的结果。我们的解决方案优于单模态匹配系统和大规模预训练模型，例如 CLIP。此外，我们展示了如何将人机协作过程与基于模型的预测相结合，实现在生产系统中接近完美的精度。

Mar, 2024

Product1M：通过跨模态预训练实现弱监督实例级产品检索

这篇论文针对电子商务中存在的多样化需求和多模态数据问题，提出了一种基于实例级的、弱监督、跨模态的商品检索方法，在构建一个包含千万张图像 - 标题对的大型数据集 Product1M 的同时，提出了一个用于商品实例级检索的新型模型 ——CAPTURE，该模型通过多模态学习和交叉模态对比预训练来捕获多模态输入的潜在协同作用，并生成判别性特征，比多个基线模型表现更佳。

Jul, 2021

多模态知识扩展

该研究提出了一种新的基于知识蒸馏的多模态知识增强 (MKE) 框架，能够有效利用大量未标记的多模态数据，并将该框架与半监督学习机制联系起来，提出了关于多模态学生模型去噪能力的理论解释。

Mar, 2021

2022 Amazon KDD Cup：面向电子商务产品搜索的多任务预训练模型

本文提出了一种有效的多语言模型，该模型不仅利用已经处理好的类平衡数据集，还通过多任务预训练获得更一般化的表示。作者采用了 mlm 任务、分类任务和对比学习任务，在微调阶段采用自信学习、EMA、FGM 和 R-Drop 等方法提高模型的泛化能力和鲁棒性，采用多粒度语义单元来寻找查询和产品文本元数据，以增强模型的表示能力。该方法在三个任务中排名前八。

Jan, 2023

学习未见过的模态交互

本文针对多模态学习的完备性假设提出挑战，提出一种基于特征投影模块的解决方案，在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明，该方法对于各种任务和模态具有很好的效果。

Jun, 2023

电子商务的多模态属性提取

本文介绍了一种基于多模态架构和深度模型的方法，从文本和图像中提取商品属性，旨在改善在线市场的用户体验。在实验中，该方法表现出良好的效果，并成功应用于 Rakuten-Ichiba 等在线市场。

Mar, 2022