集成学习是否一直在变得更好?
研究加入集成(ensembling)技术在分类任务中的性能提升问题,证明当集成模型中错误率低于集成模型间的不同率时,在学习任务中加入集成技术可以显著提高性能。通过理论和实验的方式证明这种推论,并在实践中找出集成技术适用和不适用的情况。
May, 2023
本研究使用神经网络和决策树作为分类算法,在 23 个数据集上评估了 Bagging 和 Boosting 两种集成方法。研究结果表明 Bagging 方法几乎总是比单个分类器更准确,而 Boosting 方法则在某些情况下比 Bagging 更不准确。数据集的特征对 Boosting 方法的表现有重要影响,这种方法可能会过拟合噪声数据集,从而减少性能。同时我们的结果也说明,集成模型的性能提升大部分发生在前几个分类器的组合中。
Jun, 2011
通过研究深度神经网络的损失函数平面的同构性,我们证明了深度集合优于贝叶斯神经网络在提高准确度和对数据集变化的鲁棒性方面,并发现随机初始化的权重可以探索不同的函数空间而产生更多样的结果。
Dec, 2019
本研究探讨了如何最佳地建立卷积神经网络的组合,比较了多种资源共享和差异性鼓励的策略,其中提出了 TreeNets 算法,最后通过端到端的训练以统一的损失函数获得比传统算法更高的准确率。
Nov, 2015
本文研究使用 ensemble 方法来提高模型性能的有效性,实验结果表明,与单个模型相比,用 ensemble 组合模型在准确率和计算效率上有更好的表现,并提出 ensemble 模型作为模型推理速度和准确性之间的灵活权衡。
May, 2020
通过研究和实验证明,相比于单个深层神经网络,神经网络集成在识别度、不确定性量化和对数据集迁移的鲁棒性方面并没有显著提高,二者都能实现类似的性能和效益。
Feb, 2022
通过实验验证,本研究探讨了在连续学习过程中使用集成模型的优缺点,提出了一个计算简单、性能优良的算法来解决集成模型带来的高计算成本问题,并解决了连续学习中的遗忘问题。
Feb, 2022
本文介绍了一种名为 Checkpoint Ensembles 的技术,它能够在单个训练过程中生成集成模型,使用此技术可以解决神经网络样本数据过小、采样噪声问题导致的训练数据误差。该方法通过检查点 ensemble 的方式融合了 validation set 和 ensemble models,实验证明 Checkpoint Ensembles 的表现优于其他方法。
Oct, 2017