Oct, 2023

现代深度学习中为什么我们需要权重衰减?

TL;DR从 ResNets 到 LLMs 的统一视角,权重衰减不是一个显式正则化器,而是以期望的方式改变训练动态。