BriefGPT.xyz
大模型
Ask
alpha
关键词
auto-regressive inference
搜索结果 - 2
MLKV:用于内存高效 Transformer 解码的多层键值头
通过多层键 - 值共享方式,将键值缓存扩展到变压器层,进一步降低内存使用量,提高变压器模型在大规模场景中的效率。
PDF
21 days ago
动态内存压缩:为加速推断而改进语言模型
通过动态内存压缩 (DMC) 方法,我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量,在保持原有性能的同时,使用不同的压缩率来适应不同的注意头和层级,并可以与其他技术相结合以提供更好的结果。
PDF
4 months ago
Prev
Next