Sep, 2024

Mnemosyne: 高效处理千万上下文长度LLM推理请求的并行化策略

TL;DR本研究针对现有技术无法有效处理千万级上下文推理请求的问题,提出了三项创新方法:自适应分块以降低预填充开销、序列管道并行性以减少首个令牌时间,以及KV缓存并行性以最小化令牌间时间。这些方法结合形成了一种三维并行策略,使得Mnemosyne能够高效地支持上下文长度高达1000万的推理请求。