利用非常大的 Dropout 进行微调

Mar, 2024

Fine-tuning with Very Large Dropout

Jianyu Zhang, Léon Bottou

TL;DR使用高辍学率而不是集成技术，通过精细调整来获得丰富的表示，其实现出超过集成方法和权重平均方法的超越分布性能，从而为庞大预训练模型的微调情景提供了实际意义。

Abstract

It is impossible today to pretend that the practice of machine learning is compatible with the idea that training and testing data follow the same distribution. Several authors have recently used ensemble techniques

machine learning ensemble techniques dropout rates fine-tuning rich representations

发现论文，激发创造

将辍学学习视为集成学习的分析

通过 dropout learning 减少神经网络中的过拟合，而将被舍弃的隐藏元素和学习到的网络结合起来就相当于集成学习。

Jun, 2017

低数据迁移学习的深度集成

本文探讨了从预训练模型中创建集成模型的不同方法，并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中（视觉任务适应基准），即使从超过 2000 个预训练模型中进行选择，其实现了具有较低推理预算的最先进性能，并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。

Oct, 2020

使用 Dropout 正则化从嘈杂标签中学习深度网络

该篇论文提出了一种纠正深度神经网络中标签不准确的技术：通过增加一个噪声模型的 softmax 层，采用端到端的随机梯度下降来优化网络以及噪声模型，借助 dropout 正则化防止噪声模型过于简单。在 CIFAR-10 和 MNIST 数据集上的数值实验显示，该 dropout 技术优于最先进的方法。

May, 2017

变分 Dropout 稀疏深度神经网络

本研究采用变分丢失技术，提供了一种优雅的高斯丢失的贝叶斯解释，将其扩展到丢失速率无界的情况，提出一种减少梯度估计器方差的方法，并在每个权重的情况下报告第一个实验结果。有趣的是，在完全连接和卷积层中都导致极度稀疏的解决方案。这种效应类似于实证贝叶斯中的自动相关确定效应，但具有许多优势。我们在 LeNet 架构上将参数减少了最多 280 倍，并在类似 VGG 的网络上将参数减少了最多 68 倍，同时准确度几乎不减。

Jan, 2017

分段线性网络中的辍学现象实证分析

研究表明使用 dropout 训练神经网络对于使用流行的修正线性激活函数的网络的有效性有多种问题，探究了测试时权重缩放推断过程的质量，比较了几何平均数和算术平均数的性能，研究了非绑定权重的集合解释对集合的效果，最后，我们调查了基于最大似然集合梯度的带有偏估计器的替代准则。

Dec, 2013

Dropout 对抗梯度泄漏

本文提出了在分类器前使用额外的 dropout 层的方法来防止原始数据泄露，以解决在 federal learning 和机器学习中的潜在问题。

Aug, 2021

通过集成学习和正则化微调解决偏差问题

通过多种方法解决 AI 模型中的偏见问题，使用较小的数据集和可能存在偏见的预训练模型，通过数据分割、局部训练和正则化微调训练多个模型，然后使用集成学习获得不带偏见的预测结果，最后通过知识蒸馏形成单一不带偏见的神经网络模型，实验证明了我们方法的有效性。

Feb, 2024

重拾被遗忘的知识：关于遗忘、过拟合和无需训练的深度神经网络集成

在深度神经网络中，我们引入一种新的评分方法来衡量过拟合，该方法通过监测验证数据上的模型遗忘率，从而揭示了即使总体上泛化能力得到改善，仍存在数据空间中某些区域泛化能力退化的情况。基于这些观察，我们构建了一种新的集成方法，该方法仅基于单个网络的训练历史，在不增加额外训练时间的情况下显著提高了性能。在现代深度模型上进行的广泛实证评估显示了该方法在多个数据集、神经网络架构和训练方案中的实用性，无论是从头开始训练还是在迁移学习中使用预训练网络。值得注意的是，我们的方法在实现和使用上更加简单，并在 Imagenet 上改进了具有竞争力的网络 1% 的性能。

Oct, 2023

信息丢失：通过噪声计算学习最佳表示

在深度学习中添加一种正则化项，即注入信息失真噪声，可以更好地强制执行最优表示的关键属性。信息 dropout 是对 dropout 的一种改进，可以更好地适应数据和网络结构，同时可以生成区分度良好的表示。

Nov, 2016

课程辍学

本研究提出了一种名为 “课程退火” 的优化策略，通过逐渐在神经网络结构中添加噪声的方式，从而实施一种非常通用的课程方案，进而创造更好的模型。

Mar, 2017