关键词inference acceleration
搜索结果 - 28
- GNN 中的加速算法调查PDF2 months ago
- ICML可切换的决策:动态神经生成网络PDF2 months ago
- 高稀疏性基础 Llama 模型的高效预训练和部署PDF2 months ago
- 高级推理解码的预备模型直接对齐与聊天细调语言模型PDF4 months ago
- ProSparse: 大型语言模型中引入并增强内在激活稀疏性PDF4 months ago
- EdgeQAT:基于熵和分布的量化感知训练用于边缘轻量级语言模型加速PDF5 months ago
- Medusa: 多解码头简单的 LLM 推理加速框架PDF5 months ago
- F3 剪枝:一种无需训练并具有广泛适用性的剪枝策略,用于更快速和更精细的文本到视频合成PDF7 months ago
- 模块化注意力复用技术用于低延迟推理PDF8 months ago
- SparseByteNN:一种基于细粒度分组稀疏性的新型移动推理加速框架PDF8 months ago
- EMNLP提升推理效率:释放参数共享的预训练语言模型的力量PDF8 months ago
- 基于节点自适应传播的加速可扩展的图神经网络推理PDF8 months ago
- EMNLPLLMLingua:压缩大型语言模型推理加速的提示PDF9 months ago
- ICML加速 LLM 推断的分阶段推测解码PDFa year ago
- TransNormer 模型参数适配至 1750 亿PDFa year ago
- 重访目标检测和实例分割的 Token 剪枝PDFa year ago
- 基于低于 4 位整数量化的大规模压缩语言模型记忆高效调优PDFa year ago
- 基于生命回归的视觉变压器局部细化PDFa year ago
- 渐进式通道收缩网络PDFa year ago
- 使用 CTC 指导加速 RNN-T 训练和推断PDF2 years ago
Prev