利用非常大的 Dropout 进行微调
本文探讨了从预训练模型中创建集成模型的不同方法,并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中(视觉任务适应基准),即使从超过 2000 个预训练模型中进行选择,其实现了具有较低推理预算的最先进性能,并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。
Oct, 2020
该篇论文提出了一种纠正深度神经网络中标签不准确的技术:通过增加一个噪声模型的 softmax 层,采用端到端的随机梯度下降来优化网络以及噪声模型,借助 dropout 正则化防止噪声模型过于简单。在 CIFAR-10 和 MNIST 数据集上的数值实验显示,该 dropout 技术优于最先进的方法。
May, 2017
本研究采用变分丢失技术,提供了一种优雅的高斯丢失的贝叶斯解释,将其扩展到丢失速率无界的情况,提出一种减少梯度估计器方差的方法,并在每个权重的情况下报告第一个实验结果。有趣的是,在完全连接和卷积层中都导致极度稀疏的解决方案。这种效应类似于实证贝叶斯中的自动相关确定效应,但具有许多优势。我们在 LeNet 架构上将参数减少了最多 280 倍,并在类似 VGG 的网络上将参数减少了最多 68 倍,同时准确度几乎不减。
Jan, 2017
研究表明使用 dropout 训练神经网络对于使用流行的修正线性激活函数的网络的有效性有多种问题,探究了测试时权重缩放推断过程的质量,比较了几何平均数和算术平均数的性能,研究了非绑定权重的集合解释对集合的效果,最后,我们调查了基于最大似然集合梯度的带有偏估计器的替代准则。
Dec, 2013
通过多种方法解决 AI 模型中的偏见问题,使用较小的数据集和可能存在偏见的预训练模型,通过数据分割、局部训练和正则化微调训练多个模型,然后使用集成学习获得不带偏见的预测结果,最后通过知识蒸馏形成单一不带偏见的神经网络模型,实验证明了我们方法的有效性。
Feb, 2024
在深度神经网络中,我们引入一种新的评分方法来衡量过拟合,该方法通过监测验证数据上的模型遗忘率,从而揭示了即使总体上泛化能力得到改善,仍存在数据空间中某些区域泛化能力退化的情况。基于这些观察,我们构建了一种新的集成方法,该方法仅基于单个网络的训练历史,在不增加额外训练时间的情况下显著提高了性能。在现代深度模型上进行的广泛实证评估显示了该方法在多个数据集、神经网络架构和训练方案中的实用性,无论是从头开始训练还是在迁移学习中使用预训练网络。值得注意的是,我们的方法在实现和使用上更加简单,并在 Imagenet 上改进了具有竞争力的网络 1% 的性能。
Oct, 2023
在深度学习中添加一种正则化项,即注入信息失真噪声,可以更好地强制执行最优表示的关键属性。信息 dropout 是对 dropout 的一种改进,可以更好地适应数据和网络结构,同时可以生成区分度良好的表示。
Nov, 2016