- AnyLoss:将分类指标转化为损失函数
我们提出了一种通用的方法,将任何基于混淆矩阵的度量转化为可用于优化过程的损失函数,并通过对其导数的建议证明了其可微分性,我们在多个数据集上进行了广泛的实验证明了该方法在处理不平衡数据集方面的杰出成就,并且与多个基准模型相比的竞争学习速度凸显 - 时间序列数据增强的不平衡学习问题
这篇研究提出了一种生成单变量时间序列合成样本的新方法,通过使用过采样技术创建合成时间序列观测来改善预测模型的准确性,并在实验中证明了该方法优于全局模型和本地模型,提供了更好的权衡。
- 渐近中点混合:用于边际平衡和适度拓宽
通过插值生成增强特征并逐渐将其移动到类间特征对的中点,提出了一种更好的特征增强方法。该方法具有两个效果:1)平衡所有类的间隔;2)在保持最大置信度的同时适度扩大间隔。在视觉上可视化表示来测量对齐和均匀性的折叠效应,验证了粗细粒度转移学习中的 - 在线信用卡支付欺诈检测异 常检测方法的比较评估
本研究探讨了异常检测方法在不平衡学习任务中的应用,重点关注使用真实的在线信用卡支付数据进行欺诈检测。我们评估了几种最近的异常检测方法的性能,并与标准监督学习方法进行比较。我们的发现表明,LightGBM 在所有评估指标上表现明显优于其他方法 - 机器学习技术在不平衡数据中的综述与未来趋势
通过对 258 篇论文的综合分析,本文着重从技术和应用的角度对不平衡学习进行了深入研究,总结了各种方法在不同领域解决不平衡数据问题的实践,旨在为学术和工业界的研究人员提供一个全面的指南,以利用大规模不平衡数据进行机器学习。
- 不平衡学习中加权重和对数调整的统一概化分析
通过对失衡学习的概括分析和数据依赖性收缩等技术,建立了一个精细的不平衡学习泛化界限,进一步揭示了重新加权和逻辑调整的原理,并开发了一个基于理论洞察的原则学习算法。
- 一种用于长尾识别的具有互分支和内分支对比损失的双分支模型
本文介绍了一种名为双分支长尾识别(DB-LTR)的简单而有效的模型,它包括一个不平衡学习分支和一个对比学习分支(CoLB),通过利用常见的不平衡学习方法来解决数据不平衡问题,并通过对比学习分支来改善模型对尾部类别的适应能力,并学习出一个具有 - mldr.resampling: 多标签重采样算法的高效参考实现
本文介绍了 mldr.resampling 软件包,该软件包提供了 11 种多标签重采样算法的参考实现,注重效率,以应对在多标签数据方面出现的不平衡学习问题。
- GAT-COBO:一种用于电信诈骗检测的成本敏感图神经网络
本研究提出了一种 Graph ATtention network with COst-sensitive BOosting (GAT-COBO),该方法通过在网络中使用成本敏感的学习器来解决图不平衡问题,提高电信诈骗检测的准确性和效率,实验 - ICLRInPL: 针对不平衡半监督学习首先伪标记正常值
提出了一种基于能量评分的伪标签方法(InPL)来应对非均衡半监督学习问题,该方法不依赖于模型置信度,而是根据样本在当前训练数据附近的相对位置进行评分,与目前的置信度评分方法相比,InPL 能够相对简单且显著地提高分类精度,并在 CIFAR1 - 基于投影聚类和阶段混合抽样的重叠导向不平衡集成学习方法
本文提出了一种基于双聚类和阶段式混合采样的集成学习算法 ——DCSHS,以解决类不平衡和类重叠问题,并在 30 多个公共数据集和 10 多种代表性算法上进行验证,结果表明该算法在各种评价指标上表现显著最佳。
- ICCV泛参量对比学习
本文提出了广义参数对比学习(GPaCo /PaCo),其在不平衡和平衡数据上都能很好地工作。实验表明,与 MAE 模型相比,采用 GPaCo 损失训练的模型具有更好的泛化性能和更强的鲁棒性,并且该方法还能应用于语义分割任务中并取得了显著的改 - ImDrug: AI 辅助药物发现中的深度不平衡学习基准
本文介绍了一个名为 ImDrug 的开源 Python 库,用于药物发现中数据不平衡问题的评估和基准测试,包括 4 种不平衡设置、11 个 AI-ready 数据集、54 个学习任务和 16 种针对不平衡学习的基线算法,并通过实证研究和新的 - 对好事者的对抗样本:对抗样本引导下的不平衡学习
本文研究了对抗样本在不平衡学习中的应用,在训练中引入 Guiding Adversarial Examples (GAEs) 方法,通过调整有偏的决策边界,将该方法应用在少数派类别样本的分类任务中,证明其能有效提高少数派类别样本的准确率,而 - ICCV参数对比学习
本文提出 Parametric Contrastive Learning(PaCo)来解决长尾识别问题,通过引入一组类内可学习参数来重新平衡优化,PaCo 可以自适应地提高将同类样本推向一起的强度,并造福于难度样本学习。实验表明,使用 Pa - WSDM使用图神经网络的不平衡节点分类方法 (GraphSMOTE)
开发在图领域针对类别不平衡的 GNN 分类器的重要性,GraphSMOTE 框架综合利用了合成少数类过度采样算法和嵌入空间,使大类和小类样本的特征相对不变并提供了关系信息提高了分类器的准确性。
- 利用 MEta-SAmpler 增强集合非平衡学习的 MESA 算法
本研究提出了一种新型的集成学习架构 MESA,该架构通过自适应抽样训练集在迭代中得到多个分类器,并形成级联集成模型,能够直接从数据中学习采样策略以优化最终特征度量,经实验表明 MESA 具有高效性、鲁棒性和可移植性。
- ECCV不平衡数据的主动类增量学习
本论文研究了增量学习的问题,提出了一种采用主动和非均衡的采样方法,将增量学习视为一个非均衡学习问题,通过类别预测缩放降低不平衡的影响,针对四个视觉数据集进行了评估,并表明该方案对于减少主动和标准增量学习性能之间的差距产生了积极的效果。
- MMForest R-CNN: 大词汇量长尾目标检测和实例分割
本研究提出了一种基于分类树和分类森林的方法 Forest R-CNN,通过利用对象类别之间的关系来构建分类树,re-balance 数据分布,以提高在大词汇量数据集 LVIS 上识别 1000 多个类别的目标识别模型的性能。实验表明,此方法 - 重新思考标签的价值,以改善类别不平衡学习
本研究系统研究了类别不平衡的学习及其对标签使用的影响,理论和实证表明,类别不平衡的标签可以通过半监督或自监督方法来获得显著的改进,但是在训练分类器时,先经过自监督的预训练会更优秀。