BriefGPT.xyz
大模型
Ask
alpha
关键词
accelerated training
搜索结果 - 6
叠加作为加速的梯度下降
通过逐渐增加层数并将新层的参数从旧层复制而初始化,堆叠是一种启发式技术,已被证明可以提高训练深度神经网络的效率。本文提出了堆叠的一个理论解释:即堆叠实现了一种 Nesterov 加速梯度下降的形式。该理论还涵盖了更简单的模型,如提升方法中构
→
PDF
4 months ago
隐式神经表示的随机训练预处理器
利用曲率感知的对角预处理器,我们提出了一种用于加速训练的随机训练方法,展示了它们在图像、形状重建和神经辐射场等各种信号模态上的有效性。
PDF
5 months ago
稳定 KD:稳定知识蒸馏的跨区块优化解患
知识蒸馏(KD)被认为是压缩和加速模型的有效工具。本文提出了稳定蒸馏(StableKD)框架,通过解决传统 KD 方法中的 Inter-Block Optimization Entanglement(IBOE)问题,实现更稳定的优化过程,并
→
PDF
6 months ago
前向和后向传播稀疏化提高神经网络训练效率
该研究提出了高效的稀疏训练方法,通过引入连续性问题,将优化过程分为权重更新和结构参数更新两个步骤,前者可利用稀疏结构实现,后者通过方差减少策略梯度估计器而获得全面稀疏训练,维度之间的联系局限在两个步骤中,展示了远远超过之前方法的训练加速效果
→
PDF
3 years ago
通过 Koopman 算子理论优化神经网络
本文针对 Koopman 算子理论与神经网络训练的相关性,提出了一种应用 Koopman 算子理论实现神经网络权重和偏置快速训练的方法并在一定时间范围内得到了验证,而且这种方法优于目前主流的基于梯度下降的方法 10 倍以上。未来的工作将着重
→
PDF
4 years ago
ICLR
LSTM 网络的分解技巧
本文提出利用矩阵因子分解和矩阵划分两种方法来降低参数数量和加速训练大型 LSTM 网络的方法,并成功实现了在参数数量显著减少情况下接近最先进水平的困惑度。
PDF
7 years ago
Prev
Next