集成学习何时真正有效?
集成方法的性能在预测度量与损失函数的选择下是否随着包含更多模型而提升得到了研究。我们发现,当考虑到损失函数的凸性时,集成的平均损失随着模型数量的增加而降低,而当损失函数是非凸的时候,优秀模型的集成性能提升,而糟糕模型的集成性能下降。
Nov, 2023
本研究使用神经网络和决策树作为分类算法,在 23 个数据集上评估了 Bagging 和 Boosting 两种集成方法。研究结果表明 Bagging 方法几乎总是比单个分类器更准确,而 Boosting 方法则在某些情况下比 Bagging 更不准确。数据集的特征对 Boosting 方法的表现有重要影响,这种方法可能会过拟合噪声数据集,从而减少性能。同时我们的结果也说明,集成模型的性能提升大部分发生在前几个分类器的组合中。
Jun, 2011
本文研究使用 ensemble 方法来提高模型性能的有效性,实验结果表明,与单个模型相比,用 ensemble 组合模型在准确率和计算效率上有更好的表现,并提出 ensemble 模型作为模型推理速度和准确性之间的灵活权衡。
May, 2020
使用理论分析方法,我们证明了从有限或有限维族中选择最佳堆叠综合的交叉验证方法不会比最佳方案表现差得多,进一步提出了一种特定的堆叠综合族在概率预测中的应用,并通过实验结果证明了所提出方法的性能提高。
May, 2023
使用了 Conf-Ensemble 技术来提高机器学习模型的性能,通过对 ImageNet 数据集的图像分类实验,发现 Conf-Ensemble 在复杂的多标签分类任务中并未能如预期一样实现优化结果,也说明了大数据难以被利用的非平凡性。
Mar, 2023
通过研究和实验证明,相比于单个深层神经网络,神经网络集成在识别度、不确定性量化和对数据集迁移的鲁棒性方面并没有显著提高,二者都能实现类似的性能和效益。
Feb, 2022
通过分析异质性模型,我们探究了不同培训集合的神经网络集成对子群体表现的影响。发现使用同质集成,即使所有单独模型使用相同的训练集,架构和设计选择,仍然可以获得令人信服和有力的最坏 k 值和少数群体的表现提升。我们的研究证明,简单的神经网络集成可以是减轻不同 DNN 分类器的不同影响的有效工具,从而遏制算法伤害。
Mar, 2023