关键词inference latency
搜索结果 - 53
  • SEED: 通过计划的推测解码加速推理树构建
    PDF8 days ago
  • UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐
    PDF14 days ago
  • 利用 Goodput 优化为大型语言模型提供服务的概念解码
    PDF14 days ago
  • 扩散语言建模的承诺、展望与挑战
    PDF17 days ago
  • Flash-VStream:基于内存的长视频实时理解
    PDF22 days ago
  • AsyncDiff:通过异步去噪并行化传播模型
    PDF23 days ago
  • 非自回归模型词汇扩容用于高效生成式检索
    PDF24 days ago
  • ACLCEEBERT:早期退出 BERT 的跨领域推断
    PDFa month ago
  • 加速动态猜测长度的猜测解码
    PDF2 months ago
  • 一种 65 纳米 36 纳朱 / 决策生物启发的时间稀疏感知数字关键字检测 IC,采用 0.6 伏近门限 SRAM
    PDF2 months ago
  • 计算机视觉任务中的块 / 输出通道剪枝的分离,动态和可微 (SMART) 剪枝器
    PDF3 months ago
  • CVPR非自回归序列到序列视觉语言模型
    PDF4 months ago
  • 关于量化大型语言模型的可压缩性
    PDF4 months ago
  • 优化的深度神经网络在纳米无人机上的视觉姿态估计部署
    PDF4 months ago
  • 高召回率大约前 k 个预估用于高效 LLM 推理
    PDF5 months ago
  • 无需回顾:一种高效可扩展的时间网络表征学习方法
    PDF5 months ago
  • 双加密网络:利用不同层面的隐私进行加密推理
    PDF5 months ago
  • AAAI通过移除 GELU 激活函数加速整数 SWIN Transformer 的推断
    PDF5 months ago
  • 大语言模型推理中的效率增强:专门解码的综合调查
    PDF6 months ago
  • 具有可跳过子路径的自适应深度网络
    PDF6 months ago
Prev