Nov, 2022

Random-LTD: 随机和分层标记丢弃为大型 Transformer 带来高效训练

TL;DR提出了一种新的随机层级令牌丢弃方法(“random-LTD”),通过跳过中间层中的一个子集输入令牌的计算,达到了与标准训练基线相当的准确性和显著的加速效果,可应用于更广泛的应用,并可节省约 33.3%的计算成本和 25.6%的墙钟培训时间。