盲目多类集成分类
本文提出一种实用的方法来估计多个分类器的联合能力,与现有方法不同的是它不依赖于标签,从而使得在大型无监督数据集中进行工作成为可能。该方法通过组合误差的组合边界实现,能够高效地搜索可能产生更高联合准确性的分类器组合。此外,该方法适用于无标签数据,使其在现代的无监督学习场景中既准确又实用。通过在流行的大规模人脸识别数据集上进行实验证明了该方法的有效性,这些数据集为使用嘈杂数据进行细粒度分类任务提供了一个有用的测试平台。该方法与无监督学习的趋势性实践相吻合,通过衡量一组分类器的内在独立性,而不依赖于其他分类器或标记数据。
Nov, 2023
该研究通过探究多种集成方法,包括超级学习器等,运用人工神经网络在图像识别任务中进行设计多个实验,并进一步研究了神经网络的过度自信现象及其对集成方法的影响,并在所有实验中发现超级学习器是表现最佳的集成方法。
Apr, 2017
本研究使用神经网络和决策树作为分类算法,在 23 个数据集上评估了 Bagging 和 Boosting 两种集成方法。研究结果表明 Bagging 方法几乎总是比单个分类器更准确,而 Boosting 方法则在某些情况下比 Bagging 更不准确。数据集的特征对 Boosting 方法的表现有重要影响,这种方法可能会过拟合噪声数据集,从而减少性能。同时我们的结果也说明,集成模型的性能提升大部分发生在前几个分类器的组合中。
Jun, 2011
本文针对 UNSW-NB15 数据集的类不平衡和特征空间中的类重叠问题,提出了一种机器学习分类器的数据驱动设计和性能评估方法,其中使用 Balanced Bagging、eXtreme Gradient Boosting、Hellinger Distance Decision Tree 等集成方法来解决不平衡数据问题,提出了两种新的算法来解决类重叠问题,并提高了测试数据的分类性能。实验证明,相比已有技术,该方法在二元和多种情况下均有显著优势。
May, 2022
通过将贝叶斯神经网络与传统机器学习算法(如随机森林、梯度提升、支持向量机)协同集成的一种新方法,强调了特征集成在优化中的重要性,包括优化的二阶条件,如哈西矩阵的定态性和正定性。与此相反,超参数调整对于改善预期改进(EI (x))的影响有所削弱。总体而言,集成方法作为一种稳健的、算法优化的方法表现出色。
Oct, 2023
本文提出了一种基于集成技术的神经网络扩展,该神经网络具有集成损失函数用于文本分类并通过神经网络的梯度传播优化方法调整每个弱损失函数的权重,在多个数据集和不同程度的标签噪声下,与其他方法相比表现更好,具有较强的抗噪声能力。
Nov, 2017
本研究提出一种针对深度神经网络的新型集成学习方法,名为自信多选学习(CMCL),通过解决其过度自信的问题来提高模型的性能,CMCL 比独立集成方法在图像分类和前景 - 背景分割等任务中提高了显著的准确率。
Jun, 2017
使用了 Conf-Ensemble 技术来提高机器学习模型的性能,通过对 ImageNet 数据集的图像分类实验,发现 Conf-Ensemble 在复杂的多标签分类任务中并未能如预期一样实现优化结果,也说明了大数据难以被利用的非平凡性。
Mar, 2023
在二元决策过程中,一个机器学习分类器取代了多个人类,并引发了问题,我们讨论了在决策过程中多样性的损失。我们研究了在关注公平学习的情况下使用随机分类器集合而不是单个分类器可能带来的潜在好处,并展示了各种有吸引力的属性:(i)一组公平的分类器可以保证公平,适用于多种不同的公平度量,(ii)一组不公平的分类器仍然可以实现公平结果,(iii)分类器集合可以实现比单个分类器更好的准确性 - 公平性权衡。最后,我们引入了分布公平的概念,以更好地描述随机分类器集合的潜在好处。
Jun, 2017