探索生成模型提取产品标题的联合属性值
我们提出了一个多任务学习模型 JPAVE,通过值的生成 / 分类和属性预测来预测文本中的值,解决了数据差异问题和零样本能力的限制。
Nov, 2023
本文提出了一种命名实体抽取系统,用于检测像沃尔玛这样的电商零售商产品标题中的属性。我们发现,将条件随机场和结构化感知器等序列标注算法与策略标准化方案结合起来,可以有效地从标题中提取产品属性值。
Aug, 2016
商品属性在电子商务平台中起着关键作用,本文将其产品属性和值识别(PAVI)任务作为一项生成任务进行了全面评估,比较了三种不同的基于微调编码器 - 解码器模型的属性 - 值生成策略,实验证明了端到端的生成方法在效率上优于其他策略。
Jul, 2024
提出基于简单知识驱动的查询扩展方法,从训练数据中检索查询的值,通过两个方法来训练模型,结果表明该方法在电商网站上的属性值提取任务中具有较好的性能提升,特别是对于罕见和模糊的属性的提取效果更明显。
Jun, 2022
本文探讨使用大型语言模型(如 OpenAI 的 GPT-3.5 和 GPT-4)从产品标题和产品描述中提取和规范化属性值的潜力,并介绍了 WDC PAVE 数据集,通过实验展示 GPT-4 在产品属性值的提取和规范化上相对于 PLM 的方法获得了 91% 的 F1 得分,并且在字符串处理和名称扩展方面表现出色。
Mar, 2024
该论文介绍了一个新的 MAVE 数据集,由 2.2 百万个商品和 3 百万个属性值注释构成,可以更好地促进产品属性值的提取研究。除了提供多源表示,MAVE 还包含了更多和多样化的属性和值,并提供了一个非常具有挑战性的零 - shot 测试集。
Dec, 2021
该研究提出了一种多模式方法,结合了产品图片和文本描述信息,以联合预测产品属性和提取属性值,实现了完备和准确的产品属性值数据集,并在实验中证明了显式建模属性和值之间关系以及选择性地利用产品信息可以提高任务表现。
Sep, 2020
通过使用原型网络基于生成的标签描述和类别信息,结合混合注意力以减少噪音并捕获更多信息以实现更具有区别性的原型,我们提出了一种基于知识增强型注意力框架(KEAF)的多标签少样本学习(FSL)的属性值提取模型,并通过整合支持集和查询集的语义信息来学习动态阈值实现多标签推断。大量的实验和消融研究表明,KEAF 在少样本学习中的信息提取任务中优于其他 SOTA 模型。
Aug, 2023
本论文提出了 MXT 框架,利用问题 - 回答任务解决电商产品页属性提取问题,同时提出生成模型,使用文本和图像来预测属性值,该系统能够处理传统分类和命名实体识别难以解决的零样本和无值问题,并使用远程监督训练,降低了维护模型的难度,实验结果表明,该框架的表现优于现有的先进模型。
Jun, 2023