ACLJun, 2024

检索增强生成中有效的噪音过滤的信息瓶颈视角

TL;DR检索增强生成结合了大语言模型的能力和从广泛语料库检索到的相关信息,但在面对现实世界的噪声数据时面临挑战。本文提出将信息瓶颈理论引入检索增强生成,通过同时最大化压缩和生成结果的互信息,最小化压缩和检索到的内容之间的互信息,实现对噪声的过滤。实验结果表明,我们的方法在各种问答数据集中取得显著的改进,不仅在答案生成的正确性方面,而且在 2.5% 的压缩率下的简洁性方面也有明显提升。