电子商务文本属性标准化的可扩展方法（SANTA）

ACLJun, 2021

电子商务文本属性标准化的可扩展方法（SANTA）

Scalable Approach for Normalizing E-commerce Text Attributes (SANTA)

Ravi Shankar Mishra, Kartik Mehta, Nikhil Rasiwasia

TL;DRSANTA 是一个自动归一化电子商务属性值的可扩展框架，提高属性标准化的准确性，与已有的基于模糊字符串匹配和语义嵌入算法相比，使用深度学习算法的词嵌入可提高基于商品属性数据的标准化性能。

Abstract

In this paper, we present SANTA, a scalable framework to automatically normalize e-commerce attribute values (e.g. "Win 10 Pro") to a fixed set of pre-defined canonical values (e.g. "Windows 10"). Earlier works on attribute normalization focused on fuzzy string matching (also referred

attribute normalization syntactic matching embedding learning unsupervised embeddings e-commerce

发现论文，激发创造

电子商务中从产品标题中提取属性

本文提出了一种命名实体抽取系统，用于检测像沃尔玛这样的电商零售商产品标题中的属性。我们发现，将条件随机场和结构化感知器等序列标注算法与策略标准化方案结合起来，可以有效地从标题中提取产品属性值。

Aug, 2016

使用大语言模型进行产品属性值的提取与规范化

本文探讨使用大型语言模型（如 OpenAI 的 GPT-3.5 和 GPT-4）从产品标题和产品描述中提取和规范化属性值的潜力，并介绍了 WDC PAVE 数据集，通过实验展示 GPT-4 在产品属性值的提取和规范化上相对于 PLM 的方法获得了 91% 的 F1 得分，并且在字符串处理和名称扩展方面表现出色。

Mar, 2024

通过有限标记数据学习实现电子商务目录文本属性值的自动验证

MetaBridge 是一种新颖的元学习潜变量方法，可从有限标记数据的一组类别中学习可转移的知识，并利用未标记数据捕捉从未见过的类别的不确定性，用于验证产品目录中的文本属性值，具有比现有最先进方法更优异的性能。

Jun, 2020

增强电子商务属性提取：创新的装饰关系修正和基于 LLAMA 2.0 的标注

本研究提出了一种创新的框架，将 BERT 用于分类、有条件随机场（CRFs）层用于属性值提取，以及大型语言模型（LLMs）用于数据标注，显著提高了对顾客查询中属性的识别能力。通过在电子商务数据中细致的产品类型和属性间的关系上引入装饰关系修正机制，并使用 LLMs 将附加数据标注为模型的完善和覆盖提供支持，我们的方法在不同数据集上进行了验证，并在 Walmart 的 Sponsor Product Search 中得到了令人期待的结果，彰显了其实用性和有效性。

Dec, 2023

通过优化最近邻匹配来改进文本规范化

本文提出了一种基于自动优化的最近邻匹配方法来进行文本规范化的方法，它可用于构建具备实践意义的领域特定规范化词典。

Dec, 2017

电商属性的大规模生成式多模态属性提取

本论文提出了 MXT 框架，利用问题 - 回答任务解决电商产品页属性提取问题，同时提出生成模型，使用文本和图像来预测属性值，该系统能够处理传统分类和命名实体识别难以解决的零样本和无值问题，并使用远程监督训练，降低了维护模型的难度，实验结果表明，该框架的表现优于现有的先进模型。

Jun, 2023

大规模产品分类与结构化 / 非结构化属性

本文研究了使用基于层次模型和平面模型的两个深度学习模型，以及结合结构化和非结构化特征的卷积滤波的新方法，以解决电子商务中几千个类别和数百万个产品的产品分类问题。

Mar, 2019

自动发现、关联估计和学习语义属性：千种类别

本文提出了一种端到端的无监督属性学习方法，利用在线文本语料库自动发现与人类概念语义属性相关的显著且有区分度的词汇，并针对文本中的噪声和缺失数据，提出了一个深度卷积模型来优化课程 - 属性关联。实验证明，该方法能够有效地在大规模数据集上发现和学习语义属性，并且在 ImageNet、Animals 较 Attributes 和 aPascal/aYahoo 三个数据集上优于现有技术的零样本学习效果。

Apr, 2017

利用 BERT 和神经网络进行复杂属性关联的异构实体匹配

通过引入预训练模型，我们提出了一种新颖的实体匹配模型 (EMM-CCAR)，该模型将匹配任务转化为序列匹配问题，以减轻不同数据格式的影响。通过引入注意机制，该模型能够确定属性之间复杂的关系，强调多个属性之间的匹配程度而不仅仅是一对一的对应关系。使用 EMM-CCAR 模型能够有效应对数据异质性和复杂的属性关联，与现有的 DER-SSM 和 Ditto 方法相比，我们的模型在 F1 得分上分别提升了约 4% 和 1%，为解决实体匹配中属性复杂性的问题提供了一种强大的解决方案。

Sep, 2023

LaTeX-Numeric: 面向电商数字属性的语言无关文本属性提取

本文提出了 LaTeX-Numeric，用于从产品文本（例如产品描述）中提取电子商务数值属性的高精度全自动可扩展框架。该框架通过远程监督进行训练数据生成，摆脱了手动标签的依赖，并提出了一种多任务学习架构来处理训练数据中的缺失标签，从而提高了数值属性的 F1 值。同时，提出了自动技术以进一步改进数值属性提取模型，其中包括单位 / 别名列表的自动创建等方面的改进技术，最终证明这些改进是与语言无关的，并取得了良好的提取效果。

Apr, 2021