Mar, 2023

统一理解学习和双重下降

TL;DR本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下,提出了模式学习速度框架来理解 grokking 和 double descent,同时还提供了首次对模型的 grokking 演示。