Apr, 2024

RAGCache: 检索增强生成的高效知识缓存

TL;DR通过集成大型语言模型(LLM)和外部知识数据库,检索增强生成(RAG)在各种自然语言处理任务中展现了显著的改进。然而,RAG 引入了长序列生成,导致了高计算和内存成本。我们提出了一种针对 RAG 量身定制的新型多级动态缓存系统 Thoth,通过组织检索的知识的中间状态,并在 GPU 和主机内存层次结构中缓存它们,以减少时间和资源成本。