自适应特征聚合加速极端分类

IJCAIMay, 2019

Accelerating Extreme Classification via Adaptive Feature Agglomeration

Ankit Jalan, Purushottam Kar

TL;DRDEFRAG 是一种自适应特征聚合技术，能够扩展极端分类算法，特别适用于稀疏的多标签数据集，能够显着减少训练和预测时间，提供优越的覆盖率。

Abstract

extreme classification seeks to assign each data point, the most relevant labels from a universe of a million or more labels. This task is faced with the dual challenge of high precision and scalability, with mil

extreme classification defrag adaptive feature agglomeration scalability multi-label datasets

发现论文，激发创造

DECAF：标签特征下的深度极端分类

本论文开发了 DECAF 算法，通过学习丰富的标签元数据，利用深度网络联合学习模型参数和特征表示，从而在百万级标签的极限情况下提供精确的分类。相比领先的极端分类器，DECAF 在公开可用的基准产品推荐数据集上能够提供高达 2-6％的更准确的预测，并且推理速度更快，适用于需要在几毫秒内预测的实时应用程序。

Aug, 2021

动态搜索广告的极端回归

介绍了一种新的学习范式，名为 eXtreme Regression（XR），可用于解决大规模排名和推荐应用的问题，其中包括动态搜索广告（DSA），并提出了一种新算法 XReg，该算法能有效地训练和预测。实验结果显示，XReg 相对于极值分类器和大规模回归器和排名器都有显著提高，尤其在 DSA 方面，查询覆盖率提高了 27%。

Jan, 2020

FAST：面向联邦学习的快速自适应聚合技术进行多标签分类

本文提出了一种基于聚类的多标签数据分配和一种新的聚合方法 —— 快速标签自适应聚合以解决多标签联邦学习中的分类问题。实验结果表明，该方法仅需要不到 50％的训练迭代和通信轮次即可超过最先进的联邦学习方法。

Feb, 2023

对抗性极端多标签分类

本文探讨了在存在对抗扰动的情况下的极端分类中的学习任务，并提出了一种鲁棒优化框架和相应的正则化目标，发现 Hamming 损失可作为尾标签检测的有效方法。通过结合正则化目标和基于 Proximal 梯度的优化方法，相对于 PFastreXML 和 SLEEC 等现有方法在 precision@k 和 nDCG@k 上提供了优异的性能。同时，我们还研究了标签图的谱特性，提供了新的洞察力以了解 Hamming 损失的一对多方法和标签嵌入方法之间性能的条件限制。

Mar, 2018

XLDA：边缘极端分类规模连续学习的线性判别分析

在边缘部署的类增量学习中，流式线性判别分析（LDA）在有限类别的情况下（最多 1000 个）得到了证明，但对于极端分类场景的部署尚未得到证明。本文提出了 XLDA 框架，该框架在边缘部署中将 LDA 分类器证明与 FC 层等效，包括在极端分类场景中；并对可用的计算资源进行优化以实现基于 XLDA 的训练和推断。我们展示了使用批处理训练方法加速多达 42 倍，并在极端数据集（如 AliProducts（50k 类别）和 Google Landmarks V2（81k 类别））上通过最近邻搜索加速多达 5 倍的推断。

Jul, 2023

通过动态类别选择加速大规模分类训练

本篇研究提出了一种基于动态类层次结构及自适应分配方案的新方法，对大规模分类问题进行高效、准确处理，并在多个大型基准测试中显著减少训练成本和内存需求，同时保持竞争性能。

Jan, 2018

极端标签稀缺情况下的自主跨领域适应

LEOPARD 是一种基于深度聚类网络的跨域多流分类解决方案，通过深度聚类策略和对抗域适应策略，可以处理极端标签短缺的情况下，只使用非常少的源流标记样本。

Sep, 2022

大规模数据集的联想分类扩展

介绍了一种分布式关联分类器 (DAC) 用于解决分类器难以处理大型数据集和大型域类别特征的问题，采用集成学习和先进的技巧以实现高可扩展性和高准确性，基于 Apache Spark 框架进行验证，证明 DAC 在分类预测品质和执行时间方面均优于最先进的解决方案。

May, 2018

来自聚合标签的极端多标记分类

我们开发了一种新的可扩展算法，用于从组标签中填充单个样本标签，并提供了一个新的端对端框架作为扩展，解决多示例多标签问题，在聚合标签的 XMC 和 MIML 任务上的实验表明了对现有方法的优势。

Apr, 2020

面向大数据的超高维特征选择

本文提出了一种新的自适应特征缩放方案用于大数据上的超高维特征选择，解决了激活大量特征时优化速度缓慢的问题，采用特征生成方法迭代激活一组特征并通过多重核学习子问题得到最优解，通过加速近端梯度算法在原始形式中求解多重核学习子问题并采用缓存技巧加速训练，通过大量论文实验验证了方法的竞争性能。

Sep, 2012