Apr, 2024

走向快速推理:探索与改进分块并行草稿

TL;DR通过分析和改进块并行解码草稿,提高语言模型的推理速度和验证前缀长度。