在线目录的产品合成
本文提出了一种新颖的数据合成框架,其中包括来自模式的关键关系、强类型和基于模式距离的列抽样,并采用了 SQL-to-text 任务的中间表示(IR),进一步提高了生成的自然语言问题的质量。实验证明,当现有强大的语义解析器在高质量的合成数据上进行预调整时,这些模型在流行的基准测试中的准确性得到了显着提高。
Dec, 2022
通过训练深度学习模型,使用顾客行为数据,我们开发了一种新的损失函数,并结合 n-gram 和平均池化来捕捉短程语言模式,并使用哈希来处理词汇表外的标记,从而解决语意匹配在产品搜索中的挑战。在离线测试和在线 A/B 测试中,均表现出比基线语意搜索方法更好的召回率和平均准确率。
Jul, 2019
本文提出了一种自我监督和用户行为导向的产品分类法拓展框架,通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系,以自动将新概念附加到现有分类法,从而减少手动更新的人力成本。
Mar, 2022
本研究论文主要探讨了在电子商务中,针对信息检索所进行的机器学习和自然语言处理方面的巨大投入,同时提出程序合成的方法为许多检索问题提供了显著的优势。该方法在许多市场玩家中具有重要意义,并详细说明了其使用和实现细节,以及如何应对常见的反对意见。
Apr, 2023
本文旨在利用半监督聚类方法提出一种新的产品匹配哲学,并通过在真实数据集上使用主要文本特征和模糊字符串匹配的 IDEC 算法进行实验来研究该方法的特性。鼓舞人心的结果表明,无监督匹配结合少量标注样本的产品链接可能是一种可行的替代品,而无需进行广泛的手动数据标注。
Feb, 2024
电子商务的搜索和推荐通常是在结构化数据上运行,但是在创建更好的搜索和推荐系统时,通常需要大量的非结构化数据,包括客户评论和网络文章。有别于传统的将非结构化数据转化为结构化数据的方法,我们提出了一种完全相反的解决方案,将结构化数据转化为文本数据,并通过 LLMs 对其进行搜索和推荐。
Dec, 2023
本文提出了一种基于机器学习的视觉内容管理系统,用于极大型电子商务产品目录。该系统基于图像分类技术,从多个供应商聚合产品图像,并根据顾客需求进行优化,通过不同阶段的分析实现计算机视觉和深度学习技术,解决实际业务问题。
Nov, 2018
在存在缩略词的情况下,本论文提出了一种适用于库存统一编码产品目录的字符串匹配算法。我们提供了统一的架构用于 SKU 搜索,其中包括实时建议系统(基于 Trie 数据结构)和低延迟搜索系统(使用字符级 TF-IDF 结合语言模型向量嵌入)。我们通过割除研究证明了构建由多个组件组成的复杂搜索系统是合理的,以解决速度和准确性之间微妙的权衡。以 Dynamics CRM 中的 SKU 搜索为例,我们展示了我们的系统在所有方面都远远超过了默认搜索引擎提供的结果。最后,我们展示了如何通过生成式文本模型(使用 gpt-3.5-turbo)改善 SKU 描述,以便搜索结果的使用者可以获得更多上下文和更好的体验。
Jan, 2024
本文介绍如何通过数据库查询和利用 PU 学习与决策树和聚类相结合的方法,为产品概念建模,通过模拟音乐服务的实验验证该方法的有效性。
Oct, 2022
本文提出了一种基于机器翻译的产品分类新范式,通过将产品的自然语言描述翻译成代表产品分类树中从根到叶子的路径的一系列标记,实现了比最先进的分类系统更好的预测准确性,并且可以在分类树中提出有意义的新路径,将其转换为有向无环图,从而有助于用户友好浏览和适应新产品的分类。
Dec, 2018