Jul, 2023
无训练无收益:重拾用于基于 Transformer 的语言模型的高效训练算法
No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models
Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner
TL;DR本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题,并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。