M5Product:电商多模态预训练的自协调对比学习
该论文提出一种名为 K3M 的新方法,通过引入知识模态来进行多模态预训练,以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题,并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。
Aug, 2021
这篇论文针对电子商务中存在的多样化需求和多模态数据问题,提出了一种基于实例级的、弱监督、跨模态的商品检索方法,在构建一个包含千万张图像 - 标题对的大型数据集 Product1M 的同时,提出了一个用于商品实例级检索的新型模型 ——CAPTURE,该模型通过多模态学习和交叉模态对比预训练来捕获多模态输入的潜在协同作用,并生成判别性特征,比多个基线模型表现更佳。
Jul, 2021
本文提出 Human-Centric Multi-Modal Contrastive Learning 框架,通过密集内部样本对比学习和稀疏结构感知对比学习目标,实现多视角数据有效特征表示,为数据高效下游任务转移提供了通用的预训练模型。
Mar, 2022
在线市场与电子商务公司中,产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统,其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法,并得出结论,通过预先训练的图像和文本编码器的相对简单的投影,通过对比学习进行训练,可以在成本和性能方面取得最新的结果。我们的解决方案优于单模态匹配系统和大规模预训练模型,例如 CLIP。此外,我们展示了如何将人机协作过程与基于模型的预测相结合,实现在生产系统中接近完美的精度。
Mar, 2024
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
Oct, 2022
本文探索了应用对比学习改进模态表征的方法,提出了三阶段的多视角对比学习框架,通过监督和自监督对比学习来改进单模态和融合的多模态表征,并成功提高了多模态情感分析任务的效果。
Oct, 2022
本研究提出了一种实例为中心的多模态预训练范式 ECLIP,通过引入可学习实例查询的解码器架构和两个预处理任务,从 1 亿个电子商务相关数据中预训练出语义丰富、稳健的模型,进而在广泛的下游任务中超越现有方法,证明其在现实世界中的广泛可转移性。
Apr, 2023
本研究基于文本和图像模态探讨了一种基于多模态晚期融合的方法,以对 Rakuten 上的电子商务产品进行分类,并证明了该方法相比于单模态和其他多模态方法的有效性和优越性。该研究团队在 SIGIR 2020 电子商务研讨会数据挑战赛的多模态产品分类任务中以 0.9144 的 macro-F1 得分荣获第一名。
Aug, 2020