Feb, 2025

Llamba:为高效语言处理扩展的蒸馏循环模型

TL;DR本文提出了Llamba,一种从Llama-3.x蒸馏而来的高效循环语言模型系列,解决了变压器模型在推理吞吐量和大批量处理上的局限性。Llamba通过跨架构蒸馏的方法,利用极少的训练数据实现了卓越的性能,特别针对智能手机和边缘平台进行了优化,使高质量语言模型在速度、内存效率和性能之间达成了良好平衡。