关键词inter-layer dependency
搜索结果 - 2
- ACL金字塔推理:金字塔 KV 缓存压缩用于高吞吐率 LLM 推理
通过压缩键值缓存并保留关键上下文,提出了一种名为 PyramidInfer 的方法,以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法,在增加 2.2 倍 - 递归贝叶斯剪枝加速 CNN
提出一种递归贝叶斯剪枝方法(RBP)来加速卷积神经网络,在考虑层间依赖的情况下使用基于 dropout 的冗余度测量法,解决了传统方法忽略层间依赖的问题。实验表明,该方法在多种 CNN 体系结构上的性能优于现有方法,尤其在大规模数据集 IL