BriefGPT.xyz
Ask
alpha
关键词
minima
搜索结果 - 4
具有不同数量极小值的上下文学习函数
大型语言模型在上下文学习方面表现出很好的效果,我们的研究通过一个形式化的框架来探索上下文学习,并提出了一个用于近似函数的新任务,我们发现增加极值的数量会降低上下文学习的性能,同时我们的评估结果显示,上下文学习优于两层神经网络模型,并且在所有
→
PDF
8 months ago
随机修正方程和 Dropout 算法的动力学
本文研究了 dropout 过程中的梯度优化机制,使用模拟方法得出其随机修改方程,证明了 dropout 的正则化能力来自于其寻找更平稳的极小值点,实验结果表明这种机制在 dropout 的训练过程中普遍存在。
PDF
a year ago
ICML
随机梯度下降中的各向异性噪声:脱离尖锐极小值的行为和正则化效应
通过研究梯度下降优化动力学的一般形式,分析在逃离极值和其正则化效应方面的行为,提出了一个新颖的指标来表征逃离最小值的效率,并建立了两个条件来确定哪种类型的噪声结构在逃脱效率方面优于各向同性噪声。结果表明,随着与损失函数曲率的对齐,异性噪声有
→
PDF
6 years ago
深度学习中的泛化
本文提供深度学习为何能够进行很好的泛化的理论洞察,同时探讨了为深度学习提供有效泛化保证的方法并提出了新的开放性问题与讨论了原有结果的限制。
PDF
7 years ago
Prev
Next