产品属性值识别的统一生成方法

ACLJun, 2023

A Unified Generative Approach to Product Attribute-Value Identification

Keiji Shinzato, Naoki Yoshinaga, Yandi Xia, Wei-Te Chen

TL;DR本研究探讨了使用生成模型的产品属性值识别（PAVI）任务，通过微调预训练的 T5 模型，可以在真实世界数据集上优化现有的提取和分类方法。

Abstract

product attribute-value identification (PAVI) has been studied to link products on e-commerce sites with their attribute values (e.g., ) using product text as clues. Technical demands from real-world e-commerce platforms require →

product attribute-value identification generative approach pavi methods pre-trained generative model real-world datasets

发现论文，激发创造

产品属性 - 值识别的生成式方法实证比较

商品属性在电子商务平台中起着关键作用，本文将其产品属性和值识别（PAVI）任务作为一项生成任务进行了全面评估，比较了三种不同的基于微调编码器 - 解码器模型的属性 - 值生成策略，实验证明了端到端的生成方法在效率上优于其他策略。

Jul, 2024

JPAVE: 一种基于生成和分类的联合产品属性预测和价值提取模型

我们提出了一个多任务学习模型 JPAVE，通过值的生成 / 分类和属性预测来预测文本中的值，解决了数据差异问题和零样本能力的限制。

Nov, 2023

探索生成模型提取产品标题的联合属性值

本文提出了基于生成式框架的 Attribute Value Extraction 任务处理方法。通过将 AVE 任务定义为生成问题并提出了单词序列和位置序列两种生成式范例。在两个数据集上进行实验，结果表明所提出的框架可以无需额外标记或任务特定模型设计即可取得新的最先进的结果。

Aug, 2022

使用大语言模型进行产品属性值的提取与规范化

本文探讨使用大型语言模型（如 OpenAI 的 GPT-3.5 和 GPT-4）从产品标题和产品描述中提取和规范化属性值的潜力，并介绍了 WDC PAVE 数据集，通过实验展示 GPT-4 在产品属性值的提取和规范化上相对于 PLM 的方法获得了 91% 的 F1 得分，并且在字符串处理和名称扩展方面表现出色。

Mar, 2024

电商产品的多模态联合属性预测和价值提取

该研究提出了一种多模式方法，结合了产品图片和文本描述信息，以联合预测产品属性和提取属性值，实现了完备和准确的产品属性值数据集，并在实验中证明了显式建模属性和值之间关系以及选择性地利用产品信息可以提高任务表现。

Sep, 2020

PAM: 跨产品类别属性提取中的产品图像理解

本文提出了一个全面利用产品图像、光学字符识别（OCR）令牌和文本表示的、统一的属性提取框架，并通过训练解码器来预测产品类别和属性值，从而进一步扩展了该框架的能力。在包含多个产品类别和各种产品属性的电子商务平台上进行了评估，与仅使用文本特征的现有方法相比，该模型在 14 个产品类别上取得了 15％的召回率增益和 10％的 F1 得分增益。

Jun, 2021

MAVE: 多源属性值提取产品数据集

该论文介绍了一个新的 MAVE 数据集，由 2.2 百万个商品和 3 百万个属性值注释构成，可以更好地促进产品属性值的提取研究。除了提供多源表示，MAVE 还包含了更多和多样化的属性和值，并提供了一个非常具有挑战性的零 - shot 测试集。

Dec, 2021

基于大型语言模型的产品属性值提取

使用大型语言模型（例如 GPT-4）进行电子商务应用中基于结构化产品描述的属性 / 值对提取，相较于现有技术，该方法在数据使用效率和性能方面有显著优势。

Oct, 2023

使用 ChatGPT 进行产品信息提取

本研究探讨了用 ChatGPT 从产品描述中提取属性 / 值对的潜力，实验结果表明，ChatGPT 在 zero-shot 和 few-shot 的情况下都能够实现与预训练的语言模型类似的性能，但需要更少的训练数据和计算量。

Jun, 2023

通过有限标记数据学习实现电子商务目录文本属性值的自动验证

MetaBridge 是一种新颖的元学习潜变量方法，可从有限标记数据的一组类别中学习可转移的知识，并利用未标记数据捕捉从未见过的类别的不确定性，用于验证产品目录中的文本属性值，具有比现有最先进方法更优异的性能。

Jun, 2020