Imbalanced-learn: 一个用于解决机器学习中不均衡数据集问题的 Python 工具箱
本文提出了一种基于 k-means 聚类和 SMOTE 过采样的简单有效方法,可以避免产生噪音并有效地解决类内和类间不平衡的问题,在 71 个数据集上的实验结果表明,使用所提出的方法进行训练数据过采样可以提高分类结果,并且 k-means SMOTE 方法始终优于其他流行的过采样方法。
Nov, 2017
这篇研究提出了不仅仅是平衡比例问题,还存在方差、距离、邻域和质量不均衡的种类,这些不均衡对学习的公平性产生了显着影响,并提出了一种新的基于对数摇动的失衡学习损失方法来解决比例、方差和距离不平衡问题。实验结果表明了该方法的有效性。
May, 2023
通过对 258 篇论文的综合分析,本文着重从技术和应用的角度对不平衡学习进行了深入研究,总结了各种方法在不同领域解决不平衡数据问题的实践,旨在为学术和工业界的研究人员提供一个全面的指南,以利用大规模不平衡数据进行机器学习。
Oct, 2023
本文介绍一种新的基准来研究不同的自动机器学习方法如何受标签不平衡的影响。其次,提出了更好地处理不平衡的策略并将它们整合到现有的自动机器学习框架中。最后,对这些策略的影响进行了系统研究,发现它们的加入显著增强了自动机器学习系统对标签不平衡的鲁棒性。
Nov, 2022
本文提出了一种基于聚类的过采样方法(Clustering Based Oversampling),该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本,它在不影响多数派学习的基础上,利用少数派样本的分布结构改善了在类别不平衡数据上的学习,并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明,与其他合成数据采样技术相比,该方法在不同数据集上的评估指标上表现更好。
Nov, 2018
本文通过比较分析 40 个来自不同应用领域的数据集,研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响,提出了基于性能度量的自动最优采样策略选择模型,可以在不同领域中选择最合适的方法。
Dec, 2021
本文介绍了一个名为 ImDrug 的开源 Python 库,用于药物发现中数据不平衡问题的评估和基准测试,包括 4 种不平衡设置、11 个 AI-ready 数据集、54 个学习任务和 16 种针对不平衡学习的基线算法,并通过实证研究和新的评估指标,证明了现有算法在处理实际药物发现中的数据不平衡问题时表现不佳,为 AIDD 和深度不平衡学习的研究和发展开辟了新的道路。
Sep, 2022
数据挖掘的民主化得到了广泛成功,其中强大且易于使用的机器学习库在其中发挥了重要作用,然而,实践中强监督信号稀缺,研究者必须采用弱监督方法,并且在将机器学习模型部署到现实世界中时,数据集的偏移也是一种常见现象,因此提出了一种名为 Biquality Learning 的机器学习框架,可处理多种弱监督和数据集偏移问题,而不对其性质和程度做出假设,依赖于一个小型可靠的数据集,该数据集由清晰标记和具有代表性的样本组成,因此我们提出了 biquality-learn,一个用于 Biquality Learning 的 Python 库,具有直观一致的 API,可以从 biquality 数据中学习机器学习模型,拥有经过验证的算法,对任何人都易于访问和使用,并使研究人员能够对 biquality 数据进行可重复的实验。
Aug, 2023
Scikit-learn 是一个 Python 模块,集成了各种最先进的机器学习算法,用于解决中等规模的监督和无监督问题,旨在将机器学习带给非专业人士使用通用高级语言,注重易用性,性能和一致的 API。
Jan, 2012
研究提出了一种新型的样本采样算法,“SMOTE-RUS-NC”,它可以通过结合三种不同的采样技术来实现数据的平衡处理,进而提高分类算法的性能,特别是能够在高度不平衡的数据集中表现出卓越的效果。
Aug, 2022