Oct, 2024
TurboRAG:通过预计算KV缓存加速分块文本的检索增强生成
TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed
KV Caches for Chunked Text
TL;DR本研究解决了当前检索增强生成(RAG)系统在处理检索文档块时高计算量和延迟的问题。提出的TurboRAG系统通过离线预计算和存储文档的键值(KV)缓存,从而消除了在线推理中的KV缓存计算,显著减少了首次标记的时间延迟,同时保持了模型的精度。实验结果表明,TurboRAG在多个基准测试中将TTFT减少了最高9.4倍,平均减少了8.6倍,与传统RAG系统相比,性能相当。