Jun, 2024

迈向快速多语言 LLM 推断:投机式解码和专业的起草机

TL;DR大语言模型在自然语言处理中产生了革命性的作用,并且扩展了它在不同商业应用中的适用性。然而,这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战,本文探讨了使用推测解码的助理模型的训练方法,其中助理模型用于草拟未来的令牌,并通过目标语言模型进行验证。我们表明,通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型,在推理时间上显著减少了时间,相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。