vanishing gradient problem | BriefGPT

关键词vanishing gradient problem

搜索结果 - 19

线性约束权重：减少激活漂移以加快神经网络的训练
在本文中，我们首先识别到神经网络中的激活偏移现象，通过线性约束权重（LCW）来减小激活偏移，研究了减小激活偏移对神经网络中变量方差的影响，并讨论其与梯度消失问题的关系。实验结果表明，LCW 能够通过解决梯度消失问题有效地训练具有 sigmo
PDF4 months ago
黎曼残差神经网络
本研究通过将残差神经网络（ResNet）推广至广义黎曼流形，从几何角度提供了一种方法，用以解决在图结构和自然科学中遇到的具有层次结构或流形值数据的学习问题。实验结果表明，与已有的针对双曲空间和对称正定矩阵流形进行学习的流形神经网络相比，我们
PDF9 months ago
再次让深度网络变得浅显
通过研究深度神经网络中的残差连接，提出了一种平行浅层架构的替代方案，通过在 Taylor 级数表达式中截断高阶项，发现广而浅的网络架构在性能上与传统的深层架构相当，这一发现有望简化网络架构、提高优化效率并加速训练过程。
PDF10 months ago
PAPR: 接近度注意力点渲染
基于点云的场景表面的准确和简明表示的学习仍然是 3D 表示学习中的一个挑战。为了解决这些限制，我们提出了一种名为 Proximity Attention Point Rendering (PAPR) 的新方法，该方法由一个基于点的场景表示和
PDFa year ago
ICLR自适应饱和循环神经网络：用更少的不稳定性记住更多
本文研究借助正交参数化技术解决循环神经网络中的梯度弥散问题，提出了一种 Adaptive-Saturated RNNs (ASRNN) 变种，它动态调整饱和度水平，融合传统循环神经网络的高内存容量与正交循环神经网络的稳定性。实验结果表明，A
PDFa year ago
卷积幺正或正交循环神经网络
该研究使用卷积指数函数，将反对称或反 - 厄米卷积核变换为正交或幺正卷积核，用于解决递归神经网络中的梯度消失问题，并通过提出 FFT 算法来优化计算。
PDFa year ago
AAAI胶囊网络为何难以扩展：挑战动态解析树假设
本研究提出胶囊神经网络的概念，并通过对 CapsNet 的分析，发现它在理论和实践中都存在解决不了的问题，导致无法在大规模数据集上实现。
PDFa year ago
深度可分离 LSTM 变形器
本文提出使用深度可分长短时记忆网络 (depth-wise LSTM) 替代残差连接 (residual connection) 来解决深度 Transformer 模型面临的优化问题，采用深度 LSTM 可以更好地捕捉远距离依赖关系。实验
PDF4 years ago
PredRNN++：解决时空预测学习中的深时限困境
本研究提出了 PredRNN++，一种改进的递归网络，用于视频预测学习。该方法通过利用一种名为因果 LSTM 的新型递归单元来增加相邻状态之间的转换深度，从而提高了其对空间和时间记忆的建模能力，并通过引入 Gradient Highway
PDF6 years ago
高阶递归神经网络用于声学建模
本文提出了一种基于高阶循环神经网络 (HORNN) 的方法来解决训练标准循环神经网络 (RNN) 中的梯度消失问题，并通过使用 MGB3 数据集进行语音识别实验，证明了该方法可以显著减少字词错误率，同时使用仅为网络参数数目和计算量的 20%
PDF6 years ago
AAAI深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习
本文提出了一种粗到细的多阶段图像字幕预测框架，利用多个解码器，每个解码器在前一阶段的输出上操作，产生越来越精细的图像描述，优化模型的方法采用了一种强化学习方法，通过利用每个中间解码器的测试推理算法的输出，同时解决了暴露偏差问题和损失评估不匹
PDF7 years ago
DizzyRNN：对循环神经网络重新参数化以保持范数的反向传播
我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法，以在保持范数的情况下更新线性变换，并使用绝对值函数作为逐元素非线性，以在整个网络上保持反向传播信号的范数。实验证明，该重新参数化方法在保持相同算法复杂度的情况下，优于具
PDF8 years ago
AAAI利用 u (n) 辅助学习幺正算子
本论文研究了使用可定义为 Lie 代数与 Lie 群相关联的单位矩阵组 U (n) 来描述参数化单元操作符，并通过 Lie 代数的基础定义了一个由 n^2 个实系数组成的单位矩阵空间，以解决循环神经网络训练中的梯度消失或爆炸问题。研究表明，
PDF8 years ago
NIPS残差网络表现得像相对较浅的网络集合
本文提出了新颖的残差网络解释方式，将其看作是许多不同长度路径的集合，并且只需要在训练过程中利用短路径就可以实现很深的网络。通过病变研究，揭示了残差网络中路径呈现集合的行为，不是强依赖于彼此。
PDF8 years ago
探索用于语音合成的门控循环神经网络
本研究旨在回答两个问题：a）为什么长短期记忆（LSTM）作为一种序列模型在 SPSS 中表现良好；b）哪个元素（例如，输入门，输出门，遗忘门）最重要。通过一系列实验以及视觉分析，我们提出了一种简化的架构，比 LSTM 具有较少的参数，从而
PDF8 years ago
ICLR指数线性单元（ELUs）加速和提高深层网络学习的准确性
引入了 “指数线性单元”（ELU），可以提高深度神经网络的学习速度和分类准确性，相较于其他激活函数，ELU 具有更好的学习特征和更低的计算复杂度，能够在输入数据中编码特定现象的存在程度，并在实验中取得比其他激活函数更快的学习和更好的泛化表现
PDF9 years ago
ICML整流网络的表现力
研究表明，修正线性单元（ReLU）不仅可以改善梯度消失问题、实现高效反向传播，且在学习参数方面具有稀疏性；本文则从表现力的角度探究了 ReLU 网络的决策边界，并实验证明两层 ReLU 网络的决策边界可以被阈值网络广泛捕捉，而后者可能需要一
PDF9 years ago
使用长短时记忆的组合分布式语义
本文提出了一种递归神经网络的扩展，使用了一种长短期记忆结构的变体。该扩展允许将位于解析树底部的信息存储在内存寄存器（“内存单元”）中，并在解析树的较高位置上使用。这提供了一个解决梯度消失问题并允许网络捕获长距离依赖的方案。实验结果表明，本文
PDF9 years ago
循环神经网络中学习更长记忆
本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络，并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。
PDF10 years ago