Mar, 2024

LayerNorm: 参数高效微调中的关键组件

TL;DR改进和优化 BERT 预训练模型以实现参数高效微调,通过分析不同组件,发现经过微调后,输出层规范化(LayerNorm)发生的变化最为显著。通过仅微调 LayerNorm,可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能,并用 Fisher 信息确定了 LayerNorm 的关键子集,在 GLUE 基准测试中解决了许多 NLP 任务。