2022 Amazon KDD Cup：面向电子商务产品搜索的多任务预训练模型

KDDJan, 2023

2022 Amazon KDD Cup：面向电子商务产品搜索的多任务预训练模型

ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for E-Commerce Product Search

Xuange Cui, Wei Xiong, Songlin Wang

TL;DR本文提出了一种有效的多语言模型，该模型不仅利用已经处理好的类平衡数据集，还通过多任务预训练获得更一般化的表示。作者采用了 mlm 任务、分类任务和对比学习任务，在微调阶段采用自信学习、EMA、FGM 和 R-Drop 等方法提高模型的泛化能力和鲁棒性，采用多粒度语义单元来寻找查询和产品文本元数据，以增强模型的表示能力。该方法在三个任务中排名前八。

Abstract

In this paper, we propose a robust multilingual model to improve the quality of search results. Our model not only leverage the processed class-balanced dataset, but also benefit from multitask pre-training that

multilingual model class-balanced dataset pre-training confident learning semantic unit

发现论文，激发创造

电子商务中基于多模态感知的知识预训练

该论文提出一种名为 K3M 的新方法，通过引入知识模态来进行多模态预训练，以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题，并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。

Aug, 2021

提升电子商务搜索结果的几点实践

本研究旨在通过应用自然语言处理方法来提高搜索结果的质量，从而显著增强电子商务搜索引擎的用户体验和参与度。我们在 Amazon KDD Cup 2022 中排名第一、第二和第三，讨论了我们的实用解决方案，可在此 https URL 获取代码。

Jul, 2022

EcomGPT-CT: 具有半结构化数据的电子商务大型语言模型的连续预训练

大型语言模型（LLMs）预先训练在海量语料库上，在各种 NLP 任务中展示了出色的性能。本文针对特定领域应用这些模型仍然存在着显著挑战，如缺乏领域知识、有限的领域知识利用能力和不足的领域特定数据格式适应能力。因此，本研究聚焦于以电子商务领域为示例进行面向领域的持续预训练。具体而言，我们探讨了在无标签的一般和电子商务语料库上进行持续预训练对 LLMs 的影响。此外，我们设计了一种混合策略来更好地利用电子商务半结构化数据。我们构建了多个任务来评估 LLMs 在电子商务领域中的少样本上下文学习能力以及经过指令调整后的零样本性能。实验结果证明了电子商务 LLMs 持续预训练的有效性，以及我们设计的数据混合策略的功效。

Dec, 2023

电商大规模多模态预训练中的实例级表示学习

本研究提出了一种实例为中心的多模态预训练范式 ECLIP，通过引入可学习实例查询的解码器架构和两个预处理任务，从 1 亿个电子商务相关数据中预训练出语义丰富、稳健的模型，进而在广泛的下游任务中超越现有方法，证明其在现实世界中的广泛可转移性。

Apr, 2023

用于科学文献理解的预训练多任务对比学习模型

本文提出了一种多任务对比学习框架（SciMult），采用任务感知分化技术和指令调整技术，在多种科学文献的理解任务中优于现有科学语言模型。

May, 2023

通过多任务对比学习的有效应用提高内容理解能力

通过利用多任务学习来改进 LinkedIn 核心内容推荐模型的语义理解能力，本研究提出了一种方法。我们使用来自不同语义标注任务的数据，通过多任务对比学习，对预训练的基于 Transformer 的 LLM 进行微调。我们观察到正向转移，相比于独立训练每个任务，在所有任务上都表现出更好的性能。我们的模型在零 - shot 学习上优于基准并提供了改进的多语言支持，突显了其广泛应用的潜力。我们模型产生的专门内容嵌入优于 OpenAI 在 Linkedin 数据集和任务上提供的通用嵌入。该工作为 LinkedIn 的垂直团队提供了一个健壮的基础，可以根据他们的特定应用定制和微调 LLM。我们的工作为该领域提供了见解和最佳实践。

May, 2024

M5Product：电商多模态预训练的自协调对比学习

该论文提出了一种基于 E-commerce 的多模态预训练数据集 M5Product 和一种名为 SCALE 的预训练框架，实现了不同模态特征的融合和学习，并在四个下游任务中展示了其优越性，该方法具有重要的数据集规模和多样性。

Sep, 2021

领域匹配的密集检索预训练任务

通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

通过多任务预训练提升文档信息分析：一种在视觉丰富的文档中提取信息的鲁棒方法

该研究介绍了一种深度学习模型，针对文档信息分析进行了定制，强调文档分类、实体关系提取和文档视觉问答。该模型利用基于变换器的模型来编码文档图像中的所有信息，包括文本、视觉和布局信息。该模型在预训练阶段加入了三个附加任务，并通过集体预训练方案考虑了所有任务的损失。通过在不同数据集上进行预训练和微调任务，该模型在所有任务上取得了令人印象深刻的结果，对于文档分类的准确率达到了 95.87%，实体关系提取的 F1 得分分别为 0.9306、0.9804、0.9794 和 0.8742，文档视觉问答的 ANLS 得分为 0.8468，结果凸显了该模型在理解和解释复杂文档布局和内容方面的有效性，使其成为文档分析任务的有希望的工具。

Oct, 2023

CommerceMM: 基于全检索的大规模商业多模态表示学习

CommerceMM 是一种多模态模型，其具备多种理解商业主题的能力，并能够推广到广泛的任务范围，包括多模态分类、图像 - 文本检索、查询 - 产品检索、图像 - 产品检索等。它使用预训练的方式，在图像 - 文本对上完成了 5 个有效的预训练任务，并在 9 个新的跨模态和跨配对检索任务上提出了名为 Omni-Retrieval 的方法。结果表明，该模型在细调后在 7 个与商业相关的下游任务中实现了最先进的性能。

Feb, 2022