Mafin: 使用模型增强微调提升黑盒嵌入
通过利用检索的事实信息并减少标记数,本文提出了一种新颖的黑匣子增益生成框架 FIT-RAG,它能在效果和效率上都取得卓越的表现,并在三个开放领域的问答数据集上进行了验证。
Mar, 2024
通过检索增强生成(RAG)和精调(FT)方法来定制大型语言模型(LLM),以应对低频实体的问答任务,结果表明,FT 显著提升性能,尤其在最受欢迎和最不受欢迎的实体组中,而 RAG 优于其他方法。
Mar, 2024
本文研究了领域特定的模型微调和推理机制对由大型语言模型(LLM)和检索增强生成(RAG)驱动的问答系统的性能的影响。通过使用 FinanceBench SEC 财务报告数据集,我们观察到,对于 RAG,将微调的嵌入模型与微调的 LLM 结合使用可以获得比通用模型更高的准确性,其中微调的嵌入模型所带来的收益相对更大。此外,在 RAG 之上使用推理迭代可以进一步提高性能,使问答系统更接近人类专家水平。我们讨论了这些发现的影响,提出了一个结构化的技术设计空间,涵盖了问答 AI 的主要技术组成部分,并为这些组成部分提供了高影响的技术选择建议。我们计划在本工作的基础上为 AI 团队提供具体指南,并进一步研究 RAG 中领域特定增强以及先进规划和推理等自主 AI 能力的影响。
Apr, 2024
基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准,我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析,结果表明 RAG 基于构造的模型较 FN 更有效。我们进一步指出 RAG 和 FN 的连接并不简单,因为将 FN 模型与 RAG 相连会导致性能下降。此外,我们提出了一种简单的基于 RAG 的架构,平均而言在 ROGUE 评分上比 FN 模型高出 16%,在 BLEU 评分上高出 15%,在余弦相似度上高出 53%。这显示了 RAG 相比 FN 在幻觉方面的显著优势,而 FN 模型的平均 8% 更好的 METEOR 分数则表明其与 RAG 相比具有更高的创造力。
Mar, 2024
在这篇论文中,我们提出了一种名为检索增强微调 (RAFT) 的训练方法,它能够提高模型在领域内回答问题的能力,并处理无关文档干扰,从而提升大规模语言模型的性能。
Mar, 2024
我们提出了一种朝着利用检索增强生成(RAG)改进大规模语言模型(LLMs)对私人知识库相关的领域特定和时间敏感查询的事实准确性的端到端系统设计。我们的系统将 RAG 流水线与上游数据集处理和下游性能评估集成在一起。通过使用源自 CMU 广泛资源并以教师模型进行注释的策划数据集对模型进行微调,解决了 LLM 产生的幻觉挑战。我们的实验表明该系统在生成更准确的领域特定和时间敏感查询答案方面的有效性。结果还揭示了使用规模较小和偏斜的数据集进行微调 LLM 的限制。这项研究突出了 RAG 系统在增强 LLMs 表现方面的潜力在知识密集型任务中。我们的代码和模型可在 Github 上找到。
Mar, 2024
比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法,发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning,并且 LLMs 在 fine-tuning 中难以学习新的事实信息,通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。
Dec, 2023
提出了一种名为 InFO-RAG 的信息优化训练方法,通过优化大语言模型在检索增强生成中的作用,实现了对输入的检索文本进行信息精简,提高了生成的文本的准确性、完整性和简洁性,相对于 LLaMA2 平均提升 9.39% 的性能,并展现了在上下文学习和鲁棒性方面的优势。
Feb, 2024
探索一种以维基百科作为参数内存和通过神经检索器访问的显式非参数内存的 pre-trained 具有差异访问机制的 RAG 模型,它可用于在广泛的与知识有关的 NLP 任务中取得 state-of-the-art 的表现。
May, 2020
通过学习可扩展且可插拔的虚拟标记,我们的方法在保持大型语言模型的原始参数的基础上,仅对这些可插入标记的嵌入进行微调,从而提高了大型语言模型的性能并保留了其普遍的生成能力。
May, 2024