关键词llm inference
搜索结果 - 16
  • 通过张量分解和运行时重新定量化加速大型语言模型
    PDF16 days ago
  • 语言模型可以从环境反馈中推断经典计划器的动作语义
    PDFa month ago
  • PrivacyRestore: 大型语言模型中的隐私保护推断:通过隐私去除和恢复
    PDFa month ago
  • MiniCache:大型语言模型的键值缓存深度维度压缩
    PDFa month ago
  • vAttention:为无需 PagedAttention 的 LLM 提供动态内存管理
    PDF2 months ago
  • 移植大型语言模型到移动设备以进行问答
    PDF2 months ago
  • 大语言模型的高效推论综述
    PDF2 months ago
  • RAGCache: 检索增强生成的高效知识缓存
    PDF2 months ago
  • 在关系型工作负载中优化 LLM 查询
    PDF4 months ago
  • 推理过程中不需要所有 LLM 层
    PDF4 months ago
  • Query-OPT: 通过多查询指令优化会议摘要中大型语言模型的推理
    PDF4 months ago
  • LLM 推理揭示:调查及屋顶线模型洞见
    PDF4 months ago
  • Hydragen:具有共享前缀的高吞吐量 LLM 推理
    PDF5 months ago
  • 使用词汇缩减的大型语言模型推理
    PDF8 months ago
  • FlashDecoding++: 在 GPU 上更快的大型语言模型推理
    PDF8 months ago
  • 革命性的移动互动:在移动设备上支持 30 亿参数的 GPT LLM
    PDF9 months ago
Prev
Next