Apr, 2024

层级跳过:在推断中实现早期退出和自我推测解码

TL;DR通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达 2.16 倍的加速。