BriefGPT.xyz
Ask
alpha
关键词
sgd training
搜索结果 - 3
ICLR
关于使用随机梯度下降训练的模型的泛化:信息论界限和含义
本文基于 Neu et al. (2021) 的最新研究,在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。 通过应用这些上界,分析了线性和 ReLU 网络的泛化行为,并得出了关于 SGD 训练的洞见以及一种新的简单的正则化方案。实
→
PDF
3 years ago
使用深度内核整形快速训练深度神经网络,无需跳跃连接或标准化层
通过神经切线核理论和 Deep Kernel Shaping 方法,我们成功控制了深度神经网络的初始化时间内核函数的 “形状”,实现了无归一化层的残差网络的快速 SGD 训练,并同时提高了一些传统上性能非常差的激活函数的结果。
PDF
3 years ago
使用近似张量运算加速神经网络训练
通过对张量运算(矩阵乘法和卷积)应用基于样本的近似,提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST,CIFAR-10 和 ImageNet 数据集的训练实验结果表明,该方法可以大幅度减少计算量和通
→
PDF
6 years ago
Prev
Next