在线目录的产品合成

May, 2011

Synthesizing Products for Online Catalogs

Hoa Nguyen, Ariel Fuxman, Stelios Paparizos, Juliana Freire, Rakesh Agrawal

TL;DR介绍了产品综合的问题，提出了一个系统来解决该问题，包括提取，数据合并等组件，其中还涉及从商家提取数据，架构对接和数据同化等问题。使用比较了 Bing Shopping 的数据，通过实验验证该方法能自动生成大量准确的产品规格，其中自适应的架构对接部分表现更好。

Abstract

A high-quality, comprehensive product catalog is essential to the success of Product Search engines and shopping sites such as Yahoo! Shopping, Google Product Search or Bing Shopping. But keeping catalogs up-to-date becomes a challenging task, calling for the need of automated techniques. In this paper, we introduce the problem of →

product synthesis catalog creation schema matching data fusion product specifications

发现论文，激发创造

文本到 SQL 解析中合成高质量数据的重要性

本文提出了一种新颖的数据合成框架，其中包括来自模式的关键关系、强类型和基于模式距离的列抽样，并采用了 SQL-to-text 任务的中间表示（IR），进一步提高了生成的自然语言问题的质量。实验证明，当现有强大的语义解析器在高质量的合成数据上进行预调整时，这些模型在流行的基准测试中的准确性得到了显着提高。

Dec, 2022

语义产品搜索

通过训练深度学习模型，使用顾客行为数据，我们开发了一种新的损失函数，并结合 n-gram 和平均池化来捕捉短程语言模式，并使用哈希来处理词汇表外的标记，从而解决语意匹配在产品搜索中的挑战。在离线测试和在线 A/B 测试中，均表现出比基线语意搜索方法更好的召回率和平均准确率。

Jul, 2019

用户行为监督下的产品分类扩展：从所做的事情中学到所需的知识

本文提出了一种自我监督和用户行为导向的产品分类法拓展框架，通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系，以自动将新概念附加到现有分类法，从而减少手动更新的人力成本。

Mar, 2022

向量空间不是终极边界：将产品搜索视作程序合成

本研究论文主要探讨了在电子商务中，针对信息检索所进行的机器学习和自然语言处理方面的巨大投入，同时提出程序合成的方法为许多检索问题提供了显著的优势。该方法在许多市场玩家中具有重要意义，并详细说明了其使用和实现细节，以及如何应对常见的反对意见。

Apr, 2023

基于文本的产品匹配 -- 半监督聚类方法

本文旨在利用半监督聚类方法提出一种新的产品匹配哲学，并通过在真实数据集上使用主要文本特征和模糊字符串匹配的 IDEC 算法进行实验来研究该方法的特性。鼓舞人心的结果表明，无监督匹配结合少量标注样本的产品链接可能是一种可行的替代品，而无需进行广泛的手动数据标注。

Feb, 2024

重新思考电子商务搜索

电子商务的搜索和推荐通常是在结构化数据上运行，但是在创建更好的搜索和推荐系统时，通常需要大量的非结构化数据，包括客户评论和网络文章。有别于传统的将非结构化数据转化为结构化数据的方法，我们提出了一种完全相反的解决方案，将结构化数据转化为文本数据，并通过 LLMs 对其进行搜索和推荐。

Dec, 2023

电子商务中选择最佳产品图片的智能系统

本文提出了一种基于机器学习的视觉内容管理系统，用于极大型电子商务产品目录。该系统基于图像分类技术，从多个供应商聚合产品图像，并根据顾客需求进行优化，通过不同阶段的分析实现计算机视觉和深度学习技术，解决实际业务问题。

Nov, 2018

搜索、快速且慢速地浏览产品目录

在存在缩略词的情况下，本论文提出了一种适用于库存统一编码产品目录的字符串匹配算法。我们提供了统一的架构用于 SKU 搜索，其中包括实时建议系统（基于 Trie 数据结构）和低延迟搜索系统（使用字符级 TF-IDF 结合语言模型向量嵌入）。我们通过割除研究证明了构建由多个组件组成的复杂搜索系统是合理的，以解决速度和准确性之间微妙的权衡。以 Dynamics CRM 中的 SKU 搜索为例，我们展示了我们的系统在所有方面都远远超过了默认搜索引擎提供的结果。最后，我们展示了如何通过生成式文本模型（使用 gpt-3.5-turbo）改善 SKU 描述，以便搜索结果的使用者可以获得更多上下文和更好的体验。

Jan, 2024

正例生成产品概念的自动化方法及其在音乐流媒体中的应用

本文介绍如何通过数据库查询和利用 PU 学习与决策树和聚类相结合的方法，为产品概念建模，通过模拟音乐服务的实验验证该方法的有效性。

Oct, 2022

不分类，翻译：通过机器翻译进行多级电子商务产品分类

本文提出了一种基于机器翻译的产品分类新范式，通过将产品的自然语言描述翻译成代表产品分类树中从根到叶子的路径的一系列标记，实现了比最先进的分类系统更好的预测准确性，并且可以在分类树中提出有意义的新路径，将其转换为有向无环图，从而有助于用户友好浏览和适应新产品的分类。

Dec, 2018