关键词autoregressive inference
搜索结果 - 4
- QCQA:质量和容量感知的分组查询注意力
提出了一种考虑质量和能力的查询头分组的方法,用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性,并且在细调后较其他方法具有较高的准确性。
- 自选注意力范围加速大型语言模型推理
训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。
- 下一个标记预测的陷阱
通过模型中的 autoregressive inference 和 teacher-forced training 两个关键阶段的独立处理来解决关于 next-token 预测的问题,研究揭示了在特定类的任务中,teacher-forcin - AAAI多跳可扩展解释再生的混合自回归推断
研究了在自然语言解释中使用双编码器模型进行科学推理,提出了一个名为 SCAR 的混合框架,该框架结合了基于变压器的双编码器和稀疏模型,能够在大规模事实库上实现复杂的多跳推理,并提高了下游推理任务的性能表现。