Sep, 2024

动态宽度推测性束解码用于高效大型语言模型推理

TL;DR本文探讨了大型语言模型推理过程中低效性的问题,提出了一种新的动态宽度推测性束解码(DSBD)方法,以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制,提高了推理速度并保证了输出质量,具有重要的潜在应用价值。