BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient exploding
搜索结果 - 3
深度学习优化理解
这篇论文全面介绍了深度学习中的优化,重点关注梯度消失和梯度爆炸带来的挑战,提出了改进梯度流和对网络的 Lipschitz 常数施加限制等策略,并将优化方法分为两类:显式优化和隐式优化。通过对多个深度学习模块的雅可比矩阵和 Lipschitz
→
PDF
a year ago
稳定的 ResNet
介绍了一种新的 ResNet 架构,称为 Stable ResNet,解决了在深度增加时梯度消失和梯度爆炸的问题,并确保在无限深度时保持表达能力。
PDF
4 years ago
CVPR
GAN 中梯度爆炸的缓解:假的可以成为真的
提出了一种新的生成对抗网络训练方法 Fake-As-Real GAN(FARGAN),该方法通过将某些虚假样本在训练过程中视为真实样本,从而减少生成器在梯度爆炸区域接收的梯度值,理论上证明了梯度爆炸可以通过对真假样本的区分来减轻,实验证明该
→
PDF
5 years ago
Prev
Next