利用梯度符号随机失活器优化深度多任务模型

Oct, 2020

利用梯度符号随机失活器优化深度多任务模型

Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout

Zhao Chen, Jiquan Ngiam, Yanping Huang, Thang Luong, Henrik Kretzschmar...

TL;DR本文提出了一种名为 GradDrop 的概率掩码过程，旨在优化多任务和迁移学习设置下的多损失训练，并揭示最优多损失训练与梯度随机性之间的联系。

Abstract

The vast majority of deep models use multiple gradient signals, typically corresponding to a sum of multiple loss terms, to update a shared set of trainable weights. However, these multiple updates can impede opt

deep models gradient signals multiloss methods graddrop stochasticity

发现论文，激发创造

梯度 Dropout 正则化元学习

本文提出了一种简单而有效的方法，通过在每个参数的内部循环优化中随机删除梯度来缓解基于梯度的元学习的过拟合风险，从而改善了深度神经网络在新任务上的泛化性能。作者在大量计算机视觉任务上进行了实验和分析，证明了梯度丢失规范化可以缓解过拟合问题并提高各种基于梯度的元学习框架的性能。

Apr, 2020

多样本 Dropout 用于加速训练与提高泛化能力

该论文介绍了一种名为 “多样本丢弃” 的强化丢弃 (dropout) 技术，它可以加速训练并提高网络的泛化性能。该方法采用多个丢弃样本进行训练，并通过对这些样本的损失值求平均来减少过拟合，实验结果表明，相比原始的 dropout 技术，使用该方法可以得到更低的分类错误率。

May, 2019

引导式 Dropout

本研究提出了一种基于引导选择节点赋予权重的智能随机失活方法，在多个数据集上的实验评估证明了该方法在提高深度神经网络泛化能力方面的有效性。

Dec, 2018

Dropout 对抗梯度泄漏

本文提出了在分类器前使用额外的 dropout 层的方法来防止原始数据泄露，以解决在 federal learning 和机器学习中的潜在问题。

Aug, 2021

GradSign: 基于理论洞察的模型性能推理

提出了一个新的度量标准 GradSign，用于神经架构搜索中的模型性能推断任务，通过分析不同网络的优化景观，准确、简单、灵活地预测网络的性能，在三个训练数据集上的七个基准测试中，GradSign 的表现都优于现有的基于梯度的方法，将其集成到现有的 NAS 算法中，它们的准确性有了显著提高。

Oct, 2021

关于结构化 Dropout 正则化特性的研究

单层线性网络中，DropBlock 引入了谱 k-support 正则化，促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout，某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中，并用经常使用的网络结构实验验证了理论结论和假设。

Oct, 2019

Transformer 屏蔽微调的梯度稀疏化

我们提出了 GradDrop 和其变体，一类梯度稀疏化方法，通过在反向传播过程中掩盖梯度作为梯度噪声来规范预训练语言模型，从而提高整体微调性能。在多语种 XGLUE 基准测试中的广泛实验表明，GradDrop 在中间预训练中使用额外翻译数据的方法上具有竞争力，并且优于标准的微调和渐进解冻方法。后续分析显示了 GradDrop 在未经训练的语言上如何提高性能，如资源匮乏的语言。

Jul, 2023

signSGD：非凸问题的压缩优化

signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题，在实际应用中，其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。

Feb, 2018

使用 Dropout 正则化从嘈杂标签中学习深度网络

该篇论文提出了一种纠正深度神经网络中标签不准确的技术：通过增加一个噪声模型的 softmax 层，采用端到端的随机梯度下降来优化网络以及噪声模型，借助 dropout 正则化防止噪声模型过于简单。在 CIFAR-10 和 MNIST 数据集上的数值实验显示，该 dropout 技术优于最先进的方法。

May, 2017

使用目标化 dropout 学习稀疏网络

使用有针对性的 dropout 进行神经网络的训练，可以使网络更容易剪枝并且保持稀疏性。

May, 2019