Jan, 2024

BiTA: 大型语言模型的无损加速的双向调整

TL;DR利用半自回归生成和草案验证的简化流程,提出的双向调整方法(BiTA)可加速大型语言模型(LLMs),使推理效率得到显著提高。