- 回归捷径:缓解梯度消失以训练脉冲神经网络
该论文介绍了一种基于脉冲神经网络的快捷反向传播方法,用于解决梯度消失问题,并提出了一种进化训练框架,通过动态改变平衡系数来进一步提高网络性能。实验证明,该方法在静态和动态数据集上都优于现有方法。
- 深度学习优化理解
这篇论文全面介绍了深度学习中的优化,重点关注梯度消失和梯度爆炸带来的挑战,提出了改进梯度流和对网络的 Lipschitz 常数施加限制等策略,并将优化方法分为两类:显式优化和隐式优化。通过对多个深度学习模块的雅可比矩阵和 Lipschitz - 循环神经网络和长短时记忆网络:教程和调研
本研究论文介绍了递归神经网络 (RNN)、 长短期记忆网络 (LSTM) 及其变体,在训练过程中解决长序列中的梯度消失 / 爆炸问题,并详细介绍了 LSTM 中的门控单元,双向 RNN 及 Embeddings from Language - Spiking DS-ResNet 多级发射:实现更好、更深直接训练的尖峰神经网络
本文提出一种基于现有的时空反向传播(STBP)方法和脉冲沉睡抑制残余网络(spiking DS-ResNet)的多层发射(MLF)方法,可以更有效地传播梯度和提高神经元的增量表达能力,解决深度 SNNs 的梯度消失和退化问题,并且在非神经形 - 深度监督的综述:理论与应用
本文系统全面地阐述了深度监督在神经网络学习系统中的理论和应用,并通过提出一种新的深度监督网络分类,探讨了当前计算机视觉应用中深度监督网络的优点和局限性。
- 演化策略:在混合量子 - 经典神经网络中的应用
本 paper 研究了在量子机器学习中一种名为 Evolution Strategies 的黑盒优化算法,其对 QNNs 进行训练是一种可行的替代方法,但同时也存在梯度消失的问题,其表现强烈依赖于超参数的选择。
- 稳定的 ResNet
介绍了一种新的 ResNet 架构,称为 Stable ResNet,解决了在深度增加时梯度消失和梯度爆炸的问题,并确保在无限深度时保持表达能力。
- AAAI量化网络的改进梯度对抗攻击
本文研究了神经网络量化模型的鲁棒性问题,并发现其在面对基于梯度的对抗攻击时存在梯度消失的问题,提出一种简单的温度缩放方法以减轻该问题,该方法在多个数据集与网络结构上表现出比现有方法更好的性能表现。
- CVPR深度独立递归神经网络(IndRNN)
本文提出了一种以独立循环神经网络(IndRNN)为基础的新类型的 RNN,可避免梯度消失和爆炸等问题,进而学习并构建长期模式和深层网络。通过实验,IndRNN 相对于传统的 RNN,LSTM 和 Transformer 取得了更好的性能。
- AAAI无法一次性训练骨干网络:回滚到预训练网络进行人员再识别
本研究提出一种新的 fine-tuning 策略,通过将高层权重回滚到它们的预训练权重,充分训练低层,从而解决训练数据不足的问题,并在人员重新识别任务中实现了最先进的性能。
- ECCVDist-GAN:使用距离约束改进的 GAN
通过引入自动编码器并提出两个新的距离约束条件,有效地解决了生成对抗网络中的模式崩溃和梯度消失问题,并通过 Dist-GAN 在多个基准数据集上取得了比最先进方法更好的结果。
- 大词汇连续语音识别的深度 FSMN
本文介绍了改进的前馈顺序记忆网络 DFSMN 结构,通过在相邻层的记忆块之间引入跳过连接以启用跨不同层的信息流,并消除了建立非常深层结构时的梯度消失问题。在多个大型语音识别任务中,DFSMN 的性能优于 BLSTM,尤其是使用 CD-Pho - Inception 评分、标签平滑、梯度消失和 - log (D (x)) 的替代方案
本文中我们通过数学方法研究了多个与 GAN 相关的主题,包括 Inception 分数、标签平滑、梯度消失和 - log (D (x)) 替代方案。
- CVPR超越良好初始:探索正交性和调制对训练极深卷积神经网络的更好解决方案
研究表明,使用正交性标准化的变种正则化方法和基于 “准同构假设” 的反向错误调节机制可以在不使用任何快捷方式 / 身份映射的情况下,训练一种特定结构(重复三模块的 Conv-BNReLU)的极深卷积神经网络(CNN),实验结果表明,这种方法 - NIPS使用具有对称跳跃连接的非常深的卷积编码器 - 解码器网络进行图像恢复
本文提出了一种具有对称连接多层卷积和反卷积操作的深度全卷积编码 - 解码框架,通过跳层连接缓解了梯度消失的问题,实现了优越的图像修复性能。