Nov, 2022
Random-LTD: 随机和分层标记丢弃为大型 Transformer 带来高效训练
Random-LTD: Random and Layerwise Token Dropping Brings Efficient Training for Large-scale Transformers
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang...
TL;DR提出了一种新的随机层级令牌丢弃方法(“random-LTD”),通过跳过中间层中的一个子集输入令牌的计算,达到了与标准训练基线相当的准确性和显著的加速效果,可应用于更广泛的应用,并可节省约 33.3%的计算成本和 25.6%的墙钟培训时间。