Jul, 2023

无训练无收益:重拾用于基于 Transformer 的语言模型的高效训练算法

TL;DR本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题,并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。