- 通过自动化和模型无关的规则提取实现区域可解释性
在可解释人工智能(Explainable AI)中,我们提出了一种模型无关的方法,用于从特定的数据子组中提取规则。该方法通过自动生成数字特征规则,增强了机器学习模型的区域可解释性,并在高维空间中降低了计算成本。在各种数据集和模型的实验中,我 - GENIU: 一种用于不平衡数据的有限数据访问去学习方法
GENIUn 是第一个在不平衡数据设置和受限数据访问条件下进行类忘记的实用框架,通过使用一个变分自动编码器和批内调整策略,它能够在未来的忘记中保留重要信息。
- 合成过采样:理论和使用 LLMs 解决数据不平衡的实践方法
不平衡数据和虚假关联是机器学习和数据科学中常见的挑战。本文介绍了 OPAL(使用人工生成的 LLM 数据进行过采样),一种系统的过采样方法,利用大型语言模型(LLMs)生成高质量的少数类别合成数据,与深度生成模型进行预测任务的合成数据生成方 - ACL走向真实场景:不平衡的新意图发现
通过创建 ImbaNID-Bench 数据集,并提出了 ImbaNID 模型,本论文在协助探索和分类极度不平衡以及长尾分布中的用户意图方面表现出优越性,成为一种有潜力的基准模型。
- SMCL:用于长尾识别的显著性掩蔽对比学习
本文提出了一种新的方法,利用显著性遮罩和对比学习来减轻训练不平衡数据的问题并提高模型的泛化能力,在特征空间中将遮罩图像移向次要类别,以减少与原始类别相关的背景特征。实验证明,我们的方法在基准长尾数据集上获得了最先进的性能水平。
- SLIM:用于微服务中不平衡数据的可扩展轻量级根因分析
利用决策规则集处理不平衡数据,本文提出了一种新方法,旨在适应改变服务中不平衡故障情景,并提供易于理解和验证的可解释故障原因。与现有的故障定位算法相比,该算法在准确性和模型可解释性方面表现优异。
- 使用广义鲁棒损失提升单一正标签多标签分类
本文研究了单正多标签学习(Single Positive Multi-label Learning - SPML)的问题,提出了基于期望风险最小化的广义损失框架,用于生成软伪标签,并设计了一种能够处理正负样本不平衡同时灵活协调假阳性和假阴性 - 深度长尾分类进展综述
不均匀数据的深度学习中的挑战及方法研究,重点关注长尾分类问题。
- 对装袋不足进行复制分析
通过对一种用于从不平衡数据中训练分类器的流行集成学习方法的尖锐渐近性进行推导,本文比较了与几种其他标准方法在从二元混合数据中训练线性分类器的情况下学习不平衡数据的性能。从结果中发现,增加多数类别的大小可以提高 UB 的性能,特别是当少数类别 - 用受控潜在扩散模型修正心脏成像偏差
基于心脏磁共振成像的深度学习解决方案在疾病诊断和预后方面的进展受到高度不平衡和有偏训练数据的阻碍。为了解决这个问题,我们提出了一种通过基于敏感属性(如性别、年龄、体重指数和健康状况)生成合成数据来缓解数据集中固有的不平衡问题的方法。我们采用 - ECCV增强 NeRF-based Pseudo-LiDAR 点云以解决类别不平衡问题
通过生成伪 LiDAR 点云并进行对象级领域对齐和地图信息的上下文感知放置,我们提出了一种名为 PGT-Aug 的方法,用于处理典型的由实际数据采集引起的类别不平衡问题。我们在多个基准数据集上进行了广泛实验证明了我们方法的优越性和通用性,尤 - 基于平衡 k 均值的不均衡数据聚类
平衡 K-means(EKM)是一种新颖且简单的 K-means 类型算法,通过减少大簇中心聚集的趋势,在不平衡数据上显著改善聚类结果。该论文还介绍了 HKM、FKM 和 EKM 的统一视角,展示它们本质上是梯度下降算法,并与牛顿法有明确的 - 通过重叠优化训练类不平衡的扩散模型
使用对比学习方法最小化不同类别合成图像分布之间的重叠,以改善长尾分布数据集中稀有类别的图像合成质量,并证明该方法能够有效处理基于扩散的生成和分类模型中的不平衡数据。
- 基于密度估计的正负样本学习的文档集扩展方法
该论文提出了一种基于密度估计的新颖 PU 学习框架 puDE,可以应对文档集扩展任务中的未知类别先验、不平衡数据等问题,通过一系列真实世界数据集的实验表明,该方法是 DSE 任务的更好选择。
- CLAF:增强特征的对比学习用于不平衡的半监督学习
通过引入增强特征的对比学习方法(CLAF),克服了不平衡数据对伪标签的偏见,从而提高了半监督学习中的对比学习的效果。
- 对话中多模式情感识别的深度不平衡学习
通过设计多模态生成对抗网络、深度联合变分自编码器和多任务图神经网络等方法,提出了一种处理情感识别中数据不平衡的模型,取得了跨模态情感识别的一定性能改进,尤其在恐惧和厌恶情绪标签的准确性和 F1 值上提高了 10%到 20%。
- EMNLP文本对齐到标签树层次结构的医疗分类不平衡问题
本文提出了一种名为 Text2Tree 的新型算法,该算法只利用内部标签层次结构来训练深度学习模型,通过嵌入 ICD 标签树结构到级联注意力模块中,学习具有层次感知的标签表示。引入了相似度替代学习(SSL)和差异混合学习(DML)两种新的学 - 通过可解释的标记模式理解和减轻分类错误
我们提出了一种方法,通过发现那些区分正确和错误预测的标记模式来获得全局且可解释的描述,从而改善 NLP 分类器的性能。通过一系列实验证明,我们的方法在实践中表现良好,能够在大词汇量的不平衡数据上恢复出真实情况,并对 NLP 分类器的系统错误 - 移动互联网质量评估基于自适应核回归
提出一种新的自适应核回归方法,通过自调节核函数来缓解数据不平衡,从而更准确地估计基于大规模互联网质量开放数据集的移动互联网质量,可应用于其他应用。
- 层次分类调整的深度不平衡回归
通过构建层次分类器,解决不平衡回归任务,并通过保持范围的蒸馏过程有效地学习单个分类器。在不同的任务中,如年龄估计、人群计数和深度估计,展示了优越的结果。