Mar, 2022

Tensor Programs V: 通过零样本超参数迁移调整大型神经网络

TL;DR研究了利用最大更新参数化(muP)在模型大小变化时保持多种最优超参数稳定的 HP 调整方法 muTransfer,在 Transformer 和 ResNet 上进行了验证,并且可以实现零调整迁移,这可以将来自小模型的超参数零次传输到完整模型中,成本非常低,具有重要的经济和实际意义。