vanishing gradients | BriefGPT

关键词vanishing gradients

搜索结果 - 20

通过顺序哈密顿装配改善 VQE 的参数训练
在量子机器学习中，设计和训练参数化量子电路（PQCs）是一个主要挑战。本论文提出了一种顺序哈密顿组装方法，用于处理全局损失函数的参数训练，并通过实验结果证明了该方法在图着色问题中的有效性，表现优于传统的参数训练和层次学习方法，为解决消失梯度
PDF7 months ago
Transformer 神经网络架构中注意力机制的缩放点积的替代方法
通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。
PDF8 months ago
输入凸 LSTM: 一种基于凸优化的快速 Lyapunov 模型预测控制方法
该研究基于输入凸神经网络（ICNN），提出了一种用于基于 Lyapunov 的 MPC 的新型输入凸 LSTM，旨在减少收敛时间、缓解梯度消失问题并确保闭环稳定性。模拟非线性化学反应器实验结果显示，相对于基准普通循环神经网络、普通 LSTM
PDF8 months ago
强化微调语言模型中的梯度消失
RFT 中存在梯度消失问题，通过实验和理论分析，表明小奖励标准差导致梯度消失是普遍和不利的，而对初始监督微调阶段的常见做法是最有前景的候选方法，此阶段可以是计算和数据标注工作方面较为经济的较少步骤，对成功执行 RFT 至关重要。
PDF8 months ago
优化角度的文本嵌入
提出一种新的角优化文本嵌入模型 AnglE，有效缓解余弦函数饱和区域的负面影响，改进语义文本相似性任务性能，通过实验证明 AnglE 在多个任务中优于其他模型。
PDF9 months ago
一种提高神经网络准确性的新方法：恢复传统反向传播技术
本研究提出了一种新的即时参数更新方法，通过消除每层计算梯度的需要来加速学习、避免梯度消失问题，并在基准数据集上优于最先进的方法，为高效有效的深度神经网络训练提供了一个有希望的方向。
PDFa year ago
学生学习机制
该研究通过瞳孔学习过程提出了瞳孔学习机制（PLM），用于修改两层神经网络的网络结构和权重，并通过实验证实了 PLM 模块的设计以及 PLM 模型在铜价预测中的优越性。
PDFa year ago
深度神经网络的智能梯度放大
通过智能地确定哪些层需要进行梯度放大，我们提出了一个方法来优化深度学习模型在训练过程中的性能和减少训练时间，该方法分析了训练期间不同层的梯度波动，通过对简单和深度神经网络进行实验，我们证明了该方法可以提高模型的准确性，即使使用更高学习率训练
PDFa year ago
深度胶囊网络中的消失激活：一种症状
本研究探讨了 Capsule Networks 神经网络的多个最新架构，发现构建解析树和在深层网络中可能出现梯度消失的问题不仅存在于最初的设计中，而且若干变体设计仍然保留了基本相似的结构，这种固有结构相似性可能妨碍了 Capsule Net
PDFa year ago
ICLR序列建模的长记忆
提出了一种名为长表达记忆（LEM）的新方法，用于学习长期顺序依赖关系，它可以通过梯度进行高效处理并且具有足够的表达能力，能够学习复杂的输入输出映射，通过实验验证了 LEM 在图像分类、时间序列分类、语音识别、语言建模等任务中的优越性。
PDF3 years ago
ICLR关于 BERT 微调的稳定性：误区、解释和强基准线
通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现，本文表明，Fine-tuning 不稳定是由于优化困难导致梯度消失，我们提出了一个简单但强大的基线方法，使 BERT-based 模型的 fine-tu
PDF4 years ago
AAAI面向建模长期依赖的非饱和循环单元
本文提出了一种新的递归神经网络架构 NRU，该架构依赖于内存机制，不采用饱和激活函数和饱和门，以进一步减轻消失梯度问题，并在一系列合成和真实世界任务中证明了该模型是与其他架构相比，在具有和不具有长期依赖的所有任务中表现最佳的唯一模型。
PDF5 years ago
ICMLCNN 的动态同构性及均场理论：如何训练一万层 Vanilla 卷积神经网络
本研究展示了使用适当的初始化方案可以简单地训练具有一万层或更多层的普通卷积神经网络，并演示了这些随机正交卷积核的生成算法以及它们实现极深网络的高效训练能力。
PDF6 years ago
ACL长短期记忆作为动态计算的逐元素加权和
通过解耦 LSTM 门控机制，作者提出了一种新的 RNN 类型，其中门控机制本身作为一种通用的循环模型，提供了比之前更强的表达能力，并且实验表明，门控机制单独在大多数情况下的表现不亚于 LSTM，强烈暗示门控机制在实践中做得比消除消失梯度更
PDF6 years ago
通过高效 SVD 参数化稳定深度神经网络梯度
本文提出了一种基于奇异值分解（SVD）的转移矩阵参数化方法，通过显式控制奇异值来解决在训练中发生的梯度消失和梯度爆炸问题，该方法在实验中表现出了更快的收敛速度和更好的泛化性能，特别是在捕捉长程依赖关系方面的表现较好。
PDF6 years ago
ICLRSkip RNN: 循环神经网络中学习跳过状态更新
介绍 Skip RNN 模型，可以通过学习跳过状态更新的方式解决 RNN 在长序列上训练时梯度消失和长期依赖的困难问题，并能够减少所需的 RNN 更新次数，同时保持或提高基线 RNN 模型的性能。
PDF7 years ago
连续可微的指数线性单元
本文提出了一种 ELU 的可替代参数化方法，具有较原有参数化方法不具备的有用属性，易于操作和调整，是一种用于构建深度学习架构的有价值的整流器。
PDF7 years ago
ICML破碎渐变问题：如果 ResNets 是答案，那问题是什么？
本文提出了 “破碎梯度” 问题，指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减，导致梯度类似于白噪声；相比之下，具有跳跃连接的体系结构更加抗干扰，梯度呈次线性降低。此外，本文还提出了一种新的 “线性外观”(LL) 初始化方法，可以避免
PDF7 years ago
具有虫洞连接的记忆增强神经网络
本文提出了一种名为 “TARDIS” 的新型记忆增强神经网络模型，利用记忆构建起到过去的虫洞连接，有效地缓解了梯度消失问题，提高了学习效率，并在不同的长期依赖任务中获得了竞争性结果。
PDF7 years ago
NIPS神经网络中的长时间尺度信用分配与外部存储器
通过利用自编码器重建观察数据和利用嵌入向量重新计算前向传递来解决传统循环神经网络中存在的反向传递问题。
PDF7 years ago