Apr, 2024

TriForce:层次化猜测解码对长序列生成实现无损加速

TL;DR通过介绍 TriForce,提供了一种可扩展到长序列生成的分层推断系统,该系统通过检索作为初稿模型使用的原始模型权重和动态稀疏键值缓存来降低起草延迟,并在层次结构中进一步被较小的模型推测,以实现卓越的加速和处理能力。