使用不可分解目标训练超参数模型
通过互联网使用量的增加产生了大量的数据,从而导致了各种监督和半监督机器学习算法的采用,这些算法可以有效利用庞大的数据量来训练模型。然而,在将这些模型部署到实际环境之前,必须严格评估性能指标(如最坏情况召回率)并满足公平性等约束。我们发现目前最先进的经验技术在这些实际的不可分解性能目标上提供了次优的性能。另一方面,理论技术需要针对每个性能目标从头开始训练新模型。为了弥合这一差距,我们提出了 SelMix 技术,这是一种选择性混合的低成本微调技术,用于已预训练模型以优化所需的目标。我们的核心思想是确定一个采样分布,以在特定类别之间的样本之间进行特征混合,从而优化给定的目标。我们在标准基准数据集上对我们的技术进行了全面评估,与现有的经验和理论基础方法进行了比较,用于不平衡分类。我们发现所提出的 SelMix 微调显著提高了在各种实际的不可分解目标上的性能。
Mar, 2024
本研究介绍了一种 Cost-Sensitive Self-Training 框架,可以更好地利用未标记数据来优化非可分解指标,从而获得更好的半监督学习方法。该框架可应用于视觉和自然语言处理任务,并在多个数据集和指标上取得了优于现有方法的结果。
Apr, 2023
使用多目标优化的方法直接优化错误 - 公平性权衡,并提出了一个灵活的框架来定义权重分类问题和多个代价函数,以减少优化参数,同时在真实问题中获得了更好的错误 / 公平性权衡解决方案。
Apr, 2023
本研究分析了通过逻辑回归和 softmax 损失训练的深度卷积神经网络,证明了经 class-wise 重新加权的损失函数可以帮助解决类别不平衡问题,提高了二分类。我们还提出了一种新的重新加权的逻辑回归损失函数用于解决多类别分类问题,特别是一对多方法中的负类别问题,有望成为与 softmax 损失函数相竞争的有效方法。
Mar, 2020
本文提出了一种直接损失最小化的方法来训练深度神经网络,特别适用于应用特定的指标,包括提出了新的动态规划算法来高效计算权重更新,最终在行动分类和目标检测方面表现优秀,特别是在存在标签噪声的情况下。
Nov, 2015
本篇论文提出通过使用数据集约束、使用斜面惩罚精确量化成本,并提出一种有效的算法来约束多个数据集上的多个目标,以处理训练集错误最小化目标外的其他真实目标。实验结果表明我们的方法的有效性。
Jun, 2016
通过对失衡学习的概括分析和数据依赖性收缩等技术,建立了一个精细的不平衡学习泛化界限,进一步揭示了重新加权和逻辑调整的原理,并开发了一个基于理论洞察的原则学习算法。
Oct, 2023
本文中,我们提出通过向深度网络添加 logit 权重调整来解决标签不平衡和组敏感分类问题。我们发现线性分类器必须引入乘性权重调整,而不是加性调整,以便在 TPT 中改变分类边界,我们提出了矢量缩放(VS)损失。此外,我们在状态 - 最新数据集上进行了实验,并确认了我们算法卓越的性能。
Mar, 2021