关键词batching
搜索结果 - 9
- 无性能损失的批量顺序减半算法PDFa month ago
- 使用 Sarathi-Serve 调节 LLM 推理中的吞吐量 - 延迟平衡PDF4 months ago
- 大型语言模型在服务中采用预测解码和批处理的协同效应PDF8 months ago
- 大规模语言模型服务的高效内存管理与 PagedAttentionPDF10 months ago
- 有监督对比损失学习正交框架及批次关系PDFa year ago
- ACRoBat:动态深度学习的编译时自动批处理优化PDFa year ago
- MM基于 SMDP 的 GPU 平台高效推断动态分批PDFa year ago
- MLProxy: 面向无服务器计算平台的 SLA 感知机器学习推理反向代理PDF2 years ago
- LazyBatching:面向云机器学习推断的考虑 SLA 的批处理系统PDF4 years ago
Prev
Next