关键词batching
搜索结果 - 9
  • 无性能损失的批量顺序减半算法
    PDFa month ago
  • 使用 Sarathi-Serve 调节 LLM 推理中的吞吐量 - 延迟平衡
    PDF4 months ago
  • 大型语言模型在服务中采用预测解码和批处理的协同效应
    PDF8 months ago
  • 大规模语言模型服务的高效内存管理与 PagedAttention
    PDF10 months ago
  • 有监督对比损失学习正交框架及批次关系
    PDFa year ago
  • ACRoBat:动态深度学习的编译时自动批处理优化
    PDFa year ago
  • MM基于 SMDP 的 GPU 平台高效推断动态分批
    PDFa year ago
  • MLProxy: 面向无服务器计算平台的 SLA 感知机器学习推理反向代理
    PDF2 years ago
  • LazyBatching:面向云机器学习推断的考虑 SLA 的批处理系统
    PDF4 years ago
Prev
Next