May, 2024

通过稀疏上下文选择加速检索辅助生成的推理

TL;DR通过引入稀疏技术,Sparse RAG 提出了一种新颖的范式,在提高生成质量的同时减少计算成本,通过并行编码检索文档并选择性地解码输出,既降低了延迟,又提升了模型的焦点和生成质量。