Aug, 2024

在骆驼中的眼镜蛇:蒸馏和加速混合模型

TL;DR本研究针对现有大型Transformer模型在部署过程中的挑战,提出了一种将其蒸馏为线性RNN的方法,利用注意力层的线性投影权重。该混合模型在对话基准测试中的性能与原始Transformer相当,同时实现了更高的推理速度,对计算资源的要求也较低。