M5Product：电商多模态预训练的自协调对比学习

CVPRSep, 2021

M5Product：电商多模态预训练的自协调对比学习

M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining

Xiao Dong, Xunlin Zhan, Yangxin Wu, Yunchao Wei, Michael C. Kampffmeyer...

TL;DR该论文提出了一种基于 E-commerce 的多模态预训练数据集 M5Product 和一种名为 SCALE 的预训练框架，实现了不同模态特征的融合和学习，并在四个下游任务中展示了其优越性，该方法具有重要的数据集规模和多样性。

Abstract

Despite the potential of multi-modal pre-training to learn highly discriminative feature representations from complementary data modalities, current progress is being slowed by the lack of large-scale modality-diverse datasets. By leveraging the natural suitability of →

multi-modal pre-training e-commerce m5product dataset scale pretraining framework modality fusion

发现论文，激发创造

电子商务中基于多模态感知的知识预训练

该论文提出一种名为 K3M 的新方法，通过引入知识模态来进行多模态预训练，以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题，并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。

Aug, 2021

Product1M：通过跨模态预训练实现弱监督实例级产品检索

这篇论文针对电子商务中存在的多样化需求和多模态数据问题，提出了一种基于实例级的、弱监督、跨模态的商品检索方法，在构建一个包含千万张图像 - 标题对的大型数据集 Product1M 的同时，提出了一个用于商品实例级检索的新型模型 ——CAPTURE，该模型通过多模态学习和交叉模态对比预训练来捕获多模态输入的潜在协同作用，并生成判别性特征，比多个基线模型表现更佳。

Jul, 2021

通过跨模态梯度协调扩展多模态预训练

本文讨论了跨模态对齐的效果和问题，提出了通过梯度调整和基于梯度的课程学习解决梯度冲突的方法，并将其应用于视频音频文本模态的预训练中以提高性能。

Nov, 2022

面向人类中心感知的多模态通用预训练

本文提出 Human-Centric Multi-Modal Contrastive Learning 框架，通过密集内部样本对比学习和稀疏结构感知对比学习目标，实现多视角数据有效特征表示，为数据高效下游任务转移提供了通用的预训练模型。

Mar, 2022

时尚电商中的多模态端到端产品匹配

在线市场与电子商务公司中，产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统，其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法，并得出结论，通过预先训练的图像和文本编码器的相对简单的投影，通过对比学习进行训练，可以在成本和性能方面取得最新的结果。我们的解决方案优于单模态匹配系统和大规模预训练模型，例如 CLIP。此外，我们展示了如何将人机协作过程与基于模型的预测相结合，实现在生产系统中接近完美的精度。

Mar, 2024

M6：一个中文多模态预训练模型

本研究构建了最大的中文多模态预训练数据集，提出了一个跨模态预训练方法 M6，并在众多应用领域中展示了其优异性能和高质量图像生成能力。

Mar, 2021

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

基于多视角对比学习提升情感分析中形式表征

本文探索了应用对比学习改进模态表征的方法，提出了三阶段的多视角对比学习框架，通过监督和自监督对比学习来改进单模态和融合的多模态表征，并成功提高了多模态情感分析任务的效果。

Oct, 2022

电商大规模多模态预训练中的实例级表示学习

本研究提出了一种实例为中心的多模态预训练范式 ECLIP，通过引入可学习实例查询的解码器架构和两个预处理任务，从 1 亿个电子商务相关数据中预训练出语义丰富、稳健的模型，进而在广泛的下游任务中超越现有方法，证明其在现实世界中的广泛可转移性。

Apr, 2023

一种用于电子商务产品分类的多模态后融合模型

本研究基于文本和图像模态探讨了一种基于多模态晚期融合的方法，以对 Rakuten 上的电子商务产品进行分类，并证明了该方法相比于单模态和其他多模态方法的有效性和优越性。该研究团队在 SIGIR 2020 电子商务研讨会数据挑战赛的多模态产品分类任务中以 0.9144 的 macro-F1 得分荣获第一名。

Aug, 2020