Apr, 2024

大规模 $μ$ 转让的探索

TL;DR大型神经网络模型的初始化和学习速率通常基于启发式方法,本研究通过对普遍存在的 Transformer 架构进行实证研究,探究 µP(µ-Parameterization)是否在实践中能够提供最佳的学习速率,并发现在大多数重要情况下 µ-Transfer 均可正常工作,但也存在一些令人惊讶的情况。