BriefGPT.xyz
Ask
alpha
关键词
grokking
搜索结果 - 26
ICLR
两个电路的故事:稀疏和密集子网络的竞争
研究了 Grokking 现象,发现由于神经元之间的竞争,模型有一个稀疏子网络,此网络随着优化时神经元的快速标准增长而出现,这个网络在 grokking 相变后主导模型预测。
PDF
a year ago
统一理解学习和双重下降
本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下,提出了模式学习速度框架来理解 grokking 和 double descent,同时还提供了首次对模型的 grokking 演示。
PDF
a year ago
通过激活函数的内在维度将正则化和泛化联系起来
本文研究了模型的内在维度对其泛化能力的影响,通过对验证集和训练集的表现进行分析,提出了通用的规则以改善在一个模型内提取特征数据时可能遇到的问题。
PDF
2 years ago
Omnigrok: 超越算法数据的理解
通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。
PDF
2 years ago
MM
弹弓机制:自适应优化器和领悟现象的实证研究
本文旨在通过一系列实证研究揭示 Grokking 现象的基础原理,并发现了一个被称为弹弓机制的适应性优化器优化异常,该异常是 Grokking 现象的一个显著表现。
PDF
2 years ago
理解 Grokking:表示学习有效理论的探究
通过微观分析和宏观相图描述学习性能,本研究发现,泛化是由结构化表示产生的,这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时,我们观察到四个学习阶段:理解、深度理解、记忆和混淆。此外,本研究还发现,表示学习仅
→
PDF
2 years ago
Prev
Next