- 极端分类的图正则化编码器训练
本研究通过替换图卷积网络为非图卷积网络的架构,利用图数据来规范编码器训练,提出了一种名为 RAMEN 的替代模型,以提高标签极度分类任务的性能,并在基准数据集上获得了高达 15% 的预测准确率提升,同时不增加推断计算成本。
- 基于上下文的极端多标签分类学习
多标签分类问题使用语言模型单独进行上下文学习难以解决,本文提出了一种 Infer-Retrieve-Rank 框架,通过多步交互优化语言模型和检索模型来高效处理此类问题。
- 多模态极限分类
该论文开发了 MUFIN 技术,用于具有数百万标签的极端分类(XC)任务,其中数据点和标签具有视觉和文本描述。MUFIN 用于产品推荐和竞价查询预测。
- ICMLXLDA:边缘极端分类规模连续学习的线性判别分析
在边缘部署的类增量学习中,流式线性判别分析(LDA)在有限类别的情况下(最多 1000 个)得到了证明,但对于极端分类场景的部署尚未得到证明。本文提出了 XLDA 框架,该框架在边缘部署中将 LDA 分类器证明与 FC 层等效,包括在极端分 - ACL金融数据极端标记:面向 XBRL 标记的数据集和基准测试
该篇论文研究如何自动给财务报表中的数字赋予特定标签,提出了一个多标签分类的数据集和两种解决方案,并发现第二种方法比第一种略优。
- SemSup-XC: 用于零和少样本极端分类的语义监督
本研究开发了 SemSup-XC 模型,利用混合匹配模块将输入实例与语义类别描述相匹配,通过对比学习,实现了在三个 XC 数据集上对零样本和少样本的最新成果,得分提升了 12 个精度点以上。
- KDD阿里巴巴亿级分类训练系统
本研究探讨如何解决深度学习中因分类数目巨大而导致的内存、计算资源消耗问题,提出一种大规模训练系统,通过使用混合并行训练框架、KNN softmax、梯度稀疏化等新方法,大幅提高了训练速度与效率,并在实验中取得了高准确率。
- 多标签学习新趋势
本文针对大数据时代下的多标签学习,总结分析了现有研究以及未来发展方向和应用前景。
- KDD稻草堆中的针:极度类别不平衡下的标注效率评估
本文提出了一种基于自适应重要性抽样的在线评估框架,该框架可通过自适应分布来标记物品,以最大化统计精度,并通过实验验证,利用 Dirichlet-tree 模型实现了比固定标签预算的最新技术平均 MSE 更高的结果。
- ICLR通过对抗性 Softmax 近似进行极值分类
本文提出一种简单的训练方法,通过从模仿数据分布的对抗模型中绘制负样本来大大增强梯度信号,以实现极端分类的高效训练,并在大规模数据集上实现了训练时间相对于几个竞争基线的数量级的减少。
- 使用 Count-Min Sketch 在对数内存中进行的极端分类:以亚马逊搜索 50M 产品为例
本文提出了一种名为 MACH 的算法,用于处理极端分类问题,并在 6 个数据集上进行了测试,表明 MACH 优于目前市场上使用的分类模型,能够降低内存占用,加快训练速度。
- IJCAI自适应特征聚合加速极端分类
DEFRAG 是一种自适应特征聚合技术,能够扩展极端分类算法,特别适用于稀疏的多标签数据集,能够显着减少训练和预测时间,提供优越的覆盖率。
- 极端分类中,基于损失的图解码技术的高效实现
本文提出了一种基于图编码的输出编码方法,并结合错误纠正的输出编码方法实现了一个灵活高效的算法,该算法可以在预测时间、精度和模型大小之间进行权衡,并通过实验证明了该算法和现有算法的竞争性。