常见采购词汇分类的零样本层次分类

May, 2024

常见采购词汇分类的零样本层次分类

Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy

Federico Moiraghi, Matteo Palmonari, Davide Allavena, Federico Morando

TL;DR使用零样本研究方法，基于预训练的语言模型和标签分类法，对公共招标进行分类，并且在低频类别分类表现上优于三个不同的基线模型，并能够预测未见过的类别。

Abstract

Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common →

public tenders classification taxonomy zero-shot approach language model

发现论文，激发创造

零样本学习的灵活工作分类

本文重点研究了零样本多标签文档分类在人力资源领域的实际税分类扩展情景下的应用，实验表明，相对于传统的多标签分类器，零样本分类器可以实现 12% 的平均精度（macro-AP）的增长。另外，本文还提出了采用推荐系统领域中的筛选 / 重排序分解技术可以显著降低性能非常高的零样本分类器的计算负荷。

Aug, 2022

将语义知识融合应用于零样本文本分类

本文提出了一个两阶段的框架，结合了数据扩充和特征扩充来解决零样本文本分类问题，同时将四种语义知识结构（词嵌入，类别描述，类层次结构和通用知识图谱）纳入到该框架中，实验结果表明，该框架的单独和联合两个阶段相比基线和最近的方法均获得了最佳的整体准确率。

Mar, 2019

开放领域的主题分类

本论文介绍了一种开放领域的主题分类系统，能够在实时接受用户自定义层次结构并通过零样本学习利用预训练语言模型来分类文本片段，并在多个领域数据集上进行了评估。

Jun, 2023

零样本文本分类的标签无关预训练

本文旨在探究利用两种新的有效的预训练策略（Implicit 和 Explicit pre-training）来改善 PLMs 在不同方面与领域的数据上泛化能力，特别是在零样本情况下进行文本分类的任务。作者通过引入 UTCD 数据集进行评估，证明了该方法在一系列零样本范式的挑战数据集上实现了更好的泛化能力。

May, 2023

基于词汇信息的零样本学习和开放集学习

该研究提出了一种基于语义流形的加权最大间隔框架解决零样本学习中面临的挑战，包括有限标记数据、大量标签分类和开放集分类。在 Animal with Attributes 和 ImageNet 数据集上，模型表现得到了显著提高，类词汇量最高可达 310K。

Jan, 2023

强监督下的多线索零样本学习

利用多个文本来源和语义部分注释来提供更强的监督辅助信息，达到零样本识别和检索的目标。

Mar, 2016

使用类别描述标注的零样本文本分类训练的好处

本研究提出了一种简单的方法来进一步提高零 - shot 分类准确性，即利用精心策划的微调数据集描述任务的标签，进而在多个文本域中获得强大的预测模型。

May, 2023

大规模多标签文本分类的实证研究，包括少量和零样本标签

本研究在多个数据集上评估了多种 Large-scale Multi-label Text Classification 方法，发现基于概率标签树的层次分类方法优于 Label-Wise Attention Networks。另外，结合 Transformer 的方法在两个数据集上实现了优秀的性能，同时提出了一种新的最先进的方法，将 BERT 与 LWANs 相结合。此外，还引入了图形感知注释接近度度量，提出了利用标签层次结构来改进少量和零 - shot 学习的新模型。

Oct, 2020

半监督词表知悉学习

本文介绍了一种基于最大边距框架的语义流形识别方法，并提出了半监督词汇知识学习的概念，从而实现监督学习、零样本学习和开放式识别的统一框架。该方法在 AwA 和 ImageNet 数据集上的结果显示出了改进。

Apr, 2016

SemSup-XC: 用于零和少样本极端分类的语义监督

本研究开发了 SemSup-XC 模型，利用混合匹配模块将输入实例与语义类别描述相匹配，通过对比学习，实现了在三个 XC 数据集上对零样本和少样本的最新成果，得分提升了 12 个精度点以上。

Jan, 2023