基于知识的简单有效的查询扩展实现 QA 型产品属性提取

ACLJun, 2022

基于知识的简单有效的查询扩展实现 QA 型产品属性提取

Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product Attribute Extraction

Keiji Shinzato, Naoki Yoshinaga, Yandi Xia, Wei-Te Chen

TL;DR提出基于简单知识驱动的查询扩展方法，从训练数据中检索查询的值，通过两个方法来训练模型，结果表明该方法在电商网站上的属性值提取任务中具有较好的性能提升，特别是对于罕见和模糊的属性的提取效果更明显。

Abstract

A key challenge in attribute value extraction (AVE) from e-commerce sites is how to handle a large number of attributes for diverse products. Although this challenge is partially addressed by a →

attribute value extraction e-commerce question answering knowledge-driven query expansion aliexpress dataset

发现论文，激发创造

基于知识增强的多标签少样本产品属性值提取

通过使用原型网络基于生成的标签描述和类别信息，结合混合注意力以减少噪音并捕获更多信息以实现更具有区别性的原型，我们提出了一种基于知识增强型注意力框架（KEAF）的多标签少样本学习（FSL）的属性值提取模型，并通过整合支持集和查询集的语义信息来学习动态阈值实现多标签推断。大量的实验和消融研究表明，KEAF 在少样本学习中的信息提取任务中优于其他 SOTA 模型。

Aug, 2023

基于知识引导的强化学习开放属性值提取

利用知识图谱引导的强化学习框架，对开放属性值提取任务进行了研究，结果表明该方法在不同的信息提取系统中都优于基准线 16.5 - 27.8％。

Oct, 2020

探索生成模型提取产品标题的联合属性值

本文提出了基于生成式框架的 Attribute Value Extraction 任务处理方法。通过将 AVE 任务定义为生成问题并提出了单词序列和位置序列两种生成式范例。在两个数据集上进行实验，结果表明所提出的框架可以无需额外标记或任务特定模型设计即可取得新的最先进的结果。

Aug, 2022

MAVE: 多源属性值提取产品数据集

该论文介绍了一个新的 MAVE 数据集，由 2.2 百万个商品和 3 百万个属性值注释构成，可以更好地促进产品属性值的提取研究。除了提供多源表示，MAVE 还包含了更多和多样化的属性和值，并提供了一个非常具有挑战性的零 - shot 测试集。

Dec, 2021

EAVE: 轻量级稀疏层交互的高效产品属性值提取

通过轻量级的稀疏层互动，我们提出了一种高效的产品属性值提取（EAVE）方法，其中使用重型编码器分别编码产品上下文和属性，以实现高效的提取性能，并引入轻型编码器来实现上下文和属性的轻量级交互，该方法在两个基准测试中进行了综合评估并取得了显著的效率收益，同时性能损失较小或无损。

Jun, 2024

JPAVE: 一种基于生成和分类的联合产品属性预测和价值提取模型

我们提出了一个多任务学习模型 JPAVE，通过值的生成 / 分类和属性预测来预测文本中的值，解决了数据差异问题和零样本能力的限制。

Nov, 2023

OA-Mine: 开放世界下的弱监督电子商务产品属性挖掘

本文中，我们研究了开放世界环境下的属性挖掘问题，提出了基于预训练语言模型的属性挖掘框架，该框架能够从产品标题中提取短语，生成属性值候选项，并将其聚类成属性组。通过自集成技术，我们成功地处理了开放世界挑战，并在大规模样本集和测试集上取得了显著的优势。

Apr, 2022

电商问答中基于产品的答案生成

本文提出了一种名为 PAAG 的基于对抗学习的模型来解决电子商务中针对产品相关问题的答案生成问题，其中包括通过大规模未标注的电子商务评论和产品属性生成准确且完整的答案。在一个大规模的真实电子商务数据集上进行的广泛实验验证了我们模型中每个模块的有效性，并且我们的实验表明，我们的模型在自动指标和人工评估方面均实现了最先进的性能。

Jan, 2019

产品属性 - 值识别的生成式方法实证比较

商品属性在电子商务平台中起着关键作用，本文将其产品属性和值识别（PAVI）任务作为一项生成任务进行了全面评估，比较了三种不同的基于微调编码器 - 解码器模型的属性 - 值生成策略，实验证明了端到端的生成方法在效率上优于其他策略。

Jul, 2024

使用大语言模型进行产品属性值的提取与规范化

本文探讨使用大型语言模型（如 OpenAI 的 GPT-3.5 和 GPT-4）从产品标题和产品描述中提取和规范化属性值的潜力，并介绍了 WDC PAVE 数据集，通过实验展示 GPT-4 在产品属性值的提取和规范化上相对于 PLM 的方法获得了 91% 的 F1 得分，并且在字符串处理和名称扩展方面表现出色。

Mar, 2024