Apr, 2025

增强语言模型性能的高效分布式检索增强生成方法

TL;DR本研究针对小型语言模型在资源受限边缘设备上的推理性能不足的问题,提出了DRAGON,一个分布式检索增强生成框架。通过独立且本地地在云端和设备上进行多文档处理,该框架在不泄露文档隐私的前提下,显著提高了模型性能,测试结果显示相比于集中式检索增强生成,性能提升可达1.9倍,并有效降低了每个令牌的延迟。