关键词inference acceleration
搜索结果 - 28
  • GNN 中的加速算法调查
    PDF2 months ago
  • ICML可切换的决策:动态神经生成网络
    PDF2 months ago
  • 高稀疏性基础 Llama 模型的高效预训练和部署
    PDF2 months ago
  • 高级推理解码的预备模型直接对齐与聊天细调语言模型
    PDF4 months ago
  • ProSparse: 大型语言模型中引入并增强内在激活稀疏性
    PDF4 months ago
  • EdgeQAT:基于熵和分布的量化感知训练用于边缘轻量级语言模型加速
    PDF5 months ago
  • Medusa: 多解码头简单的 LLM 推理加速框架
    PDF5 months ago
  • F3 剪枝:一种无需训练并具有广泛适用性的剪枝策略,用于更快速和更精细的文本到视频合成
    PDF7 months ago
  • 模块化注意力复用技术用于低延迟推理
    PDF8 months ago
  • SparseByteNN:一种基于细粒度分组稀疏性的新型移动推理加速框架
    PDF8 months ago
  • EMNLP提升推理效率:释放参数共享的预训练语言模型的力量
    PDF8 months ago
  • 基于节点自适应传播的加速可扩展的图神经网络推理
    PDF8 months ago
  • EMNLPLLMLingua:压缩大型语言模型推理加速的提示
    PDF9 months ago
  • ICML加速 LLM 推断的分阶段推测解码
    PDFa year ago
  • TransNormer 模型参数适配至 1750 亿
    PDFa year ago
  • 重访目标检测和实例分割的 Token 剪枝
    PDFa year ago
  • 基于低于 4 位整数量化的大规模压缩语言模型记忆高效调优
    PDFa year ago
  • 基于生命回归的视觉变压器局部细化
    PDFa year ago
  • 渐进式通道收缩网络
    PDFa year ago
  • 使用 CTC 指导加速 RNN-T 训练和推断
    PDF2 years ago
Prev