产品属性值识别的统一生成方法
商品属性在电子商务平台中起着关键作用,本文将其产品属性和值识别(PAVI)任务作为一项生成任务进行了全面评估,比较了三种不同的基于微调编码器 - 解码器模型的属性 - 值生成策略,实验证明了端到端的生成方法在效率上优于其他策略。
Jul, 2024
我们提出了一个多任务学习模型 JPAVE,通过值的生成 / 分类和属性预测来预测文本中的值,解决了数据差异问题和零样本能力的限制。
Nov, 2023
本文提出了基于生成式框架的 Attribute Value Extraction 任务处理方法。通过将 AVE 任务定义为生成问题并提出了单词序列和位置序列两种生成式范例。在两个数据集上进行实验,结果表明所提出的框架可以无需额外标记或任务特定模型设计即可取得新的最先进的结果。
Aug, 2022
本文探讨使用大型语言模型(如 OpenAI 的 GPT-3.5 和 GPT-4)从产品标题和产品描述中提取和规范化属性值的潜力,并介绍了 WDC PAVE 数据集,通过实验展示 GPT-4 在产品属性值的提取和规范化上相对于 PLM 的方法获得了 91% 的 F1 得分,并且在字符串处理和名称扩展方面表现出色。
Mar, 2024
该研究提出了一种多模式方法,结合了产品图片和文本描述信息,以联合预测产品属性和提取属性值,实现了完备和准确的产品属性值数据集,并在实验中证明了显式建模属性和值之间关系以及选择性地利用产品信息可以提高任务表现。
Sep, 2020
本文提出了一个全面利用产品图像、光学字符识别(OCR)令牌和文本表示的、统一的属性提取框架,并通过训练解码器来预测产品类别和属性值,从而进一步扩展了该框架的能力。在包含多个产品类别和各种产品属性的电子商务平台上进行了评估,与仅使用文本特征的现有方法相比,该模型在 14 个产品类别上取得了 15%的召回率增益和 10%的 F1 得分增益。
Jun, 2021
该论文介绍了一个新的 MAVE 数据集,由 2.2 百万个商品和 3 百万个属性值注释构成,可以更好地促进产品属性值的提取研究。除了提供多源表示,MAVE 还包含了更多和多样化的属性和值,并提供了一个非常具有挑战性的零 - shot 测试集。
Dec, 2021
使用大型语言模型(例如 GPT-4)进行电子商务应用中基于结构化产品描述的属性 / 值对提取,相较于现有技术,该方法在数据使用效率和性能方面有显著优势。
Oct, 2023
本研究探讨了用 ChatGPT 从产品描述中提取属性 / 值对的潜力,实验结果表明,ChatGPT 在 zero-shot 和 few-shot 的情况下都能够实现与预训练的语言模型类似的性能,但需要更少的训练数据和计算量。
Jun, 2023
MetaBridge 是一种新颖的元学习潜变量方法,可从有限标记数据的一组类别中学习可转移的知识,并利用未标记数据捕捉从未见过的类别的不确定性,用于验证产品目录中的文本属性值,具有比现有最先进方法更优异的性能。
Jun, 2020