基于文本的产品匹配 -- 半监督聚类方法

Feb, 2024

基于文本的产品匹配 -- 半监督聚类方法

Text-Based Product Matching -- Semi-Supervised Clustering Approach

Alicja Martinek, Szymon Łukasik, Amir H. Gandomi

TL;DR本文旨在利用半监督聚类方法提出一种新的产品匹配哲学，并通过在真实数据集上使用主要文本特征和模糊字符串匹配的 IDEC 算法进行实验来研究该方法的特性。鼓舞人心的结果表明，无监督匹配结合少量标注样本的产品链接可能是一种可行的替代品，而无需进行广泛的手动数据标注。

Abstract

Matching identical products present in multiple product feeds constitutes a crucial element of many tasks of e-commerce, such as comparing product offerings, dynamic price optimization, and selecting the assortment personalized for the client. It corresponds to the well-known

product matching e-commerce machine learning semi-supervised clustering entity matching

发现论文，激发创造

时尚电商中的多模态端到端产品匹配

在线市场与电子商务公司中，产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统，其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法，并得出结论，通过预先训练的图像和文本编码器的相对简单的投影，通过对比学习进行训练，可以在成本和性能方面取得最新的结果。我们的解决方案优于单模态匹配系统和大规模预训练模型，例如 CLIP。此外，我们展示了如何将人机协作过程与基于模型的预测相结合，实现在生产系统中接近完美的精度。

Mar, 2024

产品搜索中的语义匹配极端多标签学习

该论文旨在使用基于树的 XMC 模型来改善语义产品搜索，其中推理时间复杂度对于产品数量为对数级。使用 n-gram 特征进行层次线性模型并通过重量修剪使本方法具有灵活性，提高了 Recall@100，并在搜索结果中添加了多样性。

Jun, 2021

语义产品搜索

通过训练深度学习模型，使用顾客行为数据，我们开发了一种新的损失函数，并结合 n-gram 和平均池化来捕捉短程语言模式，并使用哈希来处理词汇表外的标记，从而解决语意匹配在产品搜索中的挑战。在离线测试和在线 A/B 测试中，均表现出比基线语意搜索方法更好的召回率和平均准确率。

Jul, 2019

电商同款商品检索的统一视觉语言表征建模

本文提出一种统一的视觉 - 语言建模方法，用于电子商务同款产品检索，包括取样和对比学习，可进行跨模态产品检索和用户交互搜索，离线和在线测试都表明其卓越的检索性能和吸引更多点击和转化的能力，并已在全球最大的 B2B 电子商务平台中部署用于同款产品检索。

Feb, 2023

电子商务中的产品分类使用分布语义学

针对商品分类中的文本表示和算法效率问题，我们提出了一种新的分布式语义表示方法和两层集合式分类器来降低错误率，实验结果表明，我们的方法比先前的方法在各种评价指标上更有效。

Jun, 2016

MixMatch: 半监督学习的整体方法

本研究提出了一种半监督学习算法 MixMatch，采用猜测低熵标签的方法，通过使用 MixUp 混合标记和未标记的数据来处理扩充后的未标注样例。实验结果表明，MixMatch 在许多数据集和标记数据量上都取得了大幅度的优越结果，同时也证明了 MixMatch 如何帮助实现更好的准确性和隐私权的权衡。最终，我们进行了消融研究来分离 MixMatch 的哪些组件对其成功最为重要。

May, 2019

文本语义匹配：以分离关键词和意图为特色的分治方法

本文提出了一种简单而有效的文本语义匹配训练策略，将关键词从意图中解离开来，可以与预训练语言模型 PLM 轻松结合，而且在三个基准测试中与各种 PLMs 相比具有稳定的性能提升。

Mar, 2022

描述标签与术语描述的匹配

语义文本相似性在软件工程中具有重要作用，在工程师需要澄清描述性标签（例如，业务术语、表列名）的语义的任务中，这些标签通常由过于简短或过于通用的词组成，并在其信息技术系统中出现。我们将这种问题定义为将描述性标签与词汇表描述匹配的任务。然后，我们提出了一个框架，利用现有的语义文本相似性测量（STS），并使用语义标签增强和基于集合的上下文化来增强它，其中前者是一种检索与给定标签相关的句子的方法，而后者是一种计算两个上下文之间相似度的方法，其中每个上下文均来自一组文本（例如，同一表中的列名）。我们对两个由公开可用数据源生成的数据集进行了实验，结果表明，所提出的方法能够帮助底层 STS 正确匹配更多的描述性标签与描述。

Oct, 2023

基于方面识别和句子聚类的产品评论概括

本文介绍了一种可以自动处理大量评论并汇总生成简明摘要的产品评论汇总系统，通过应用聚类并选择代表性候选项来解决现有产品汇总系统无法提供支持用户意见的根本原因的缺点。

Oct, 2011

产品匹配的监督对比学习

本文首次将有监督对比学习应用于电子商务中的产品匹配任务，使用来自不同电商的产品提供，通过对有标签的对比学习进行预训练，并提出了一种源感知采样策略，能够在训练数据不包含产品标识符的使用用例中使用对比学习，实验结果表明对比预训练与源感知采样相结合，可以显著提高多个广泛使用的基准测试性能，并在有明确监督的产品匹配用例中具有很高的潜力。

Feb, 2022