Oct, 2024

SimRAG:自我改进的检索增强生成方法,以适应大型语言模型于专业领域

TL;DR本研究针对将通用检索增强生成系统适应于科学和医学等专业领域所面临的挑战,提出了SimRAG自我训练方法。其创新性在于通过同时实现问答和问题生成能力,从未标记的数据中生成相关问题,并筛选高质量样本,以提升LLM在领域特定任务中的表现。实验结果表明,SimRAG在11个数据集中的表现优于基线模型1.2%至8.6%。