Apr, 2024

CQIL:并发计算准独立层优化推理延迟

TL;DR大规模语言模型中的并行计算减少推理延迟,提高性能。