微调与检索增强生成：面向不那么流行的知识

Mar, 2024

微调与检索增强生成：面向不那么流行的知识

Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge

Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi

TL;DR通过检索增强生成（RAG）和精调（FT）方法来定制大型语言模型（LLM），以应对低频实体的问答任务，结果表明，FT 显著提升性能，尤其在最受欢迎和最不受欢迎的实体组中，而 RAG 优于其他方法。

Abstract

large language models (LLMs) memorize a vast amount of factual knowledge, exhibiting strong performance across diverse tasks and domains. However, it has been observed that the performance diminishes when dealing with less-popular or low-frequency concepts and entities, for example in

large language models retrieval augmented generation fine-tuning low-frequency entities question answering task

发现论文，激发创造

微调还是检索？LLMs 中知识注入的比较

比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法，发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning，并且 LLMs 在 fine-tuning 中难以学习新的事实信息，通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。

Dec, 2023

研究信息检索增强生成和微调技术在基于人工智能驱动的知识系统开发中的性能

基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准，我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析，结果表明 RAG 基于构造的模型较 FN 更有效。我们进一步指出 RAG 和 FN 的连接并不简单，因为将 FN 模型与 RAG 相连会导致性能下降。此外，我们提出了一种简单的基于 RAG 的架构，平均而言在 ROGUE 评分上比 FN 模型高出 16%，在 BLEU 评分上高出 15%，在余弦相似度上高出 53%。这显示了 RAG 相比 FN 在幻觉方面的显著优势，而 FN 模型的平均 8% 更好的 METEOR 分数则表明其与 RAG 相比具有更高的创造力。

Mar, 2024

建立非专业化 LLM 用户的微调、增强检索生成和软提示的性能基准

通过细调、检索增强生成（RAG）和软提示等方法提高大型语言模型（LLMs）的性能的研究一般侧重于使用高度技术性或高成本的技术，使许多新发现的方法对非技术用户相对不可访问。在本文中，我们测试了未修改版本的 GPT 3.5，经过细调的版本，以及相同的未修改模型在访问矢量化的 RAG 数据库时，单独或与基本的非算法软提示相结合。每种情况下，我们测试了模型回答一组 100 个与 2021 年 9 月之后（GPT 3.5 的训练数据集结束的时间点）相关的事件问题的能力。我们发现，如果使用商业平台并应用默认设置以建立基准输出集，经过细调的模型优于 GPT 3.5 Turbo，而 RAG 方法优于两者。应用软提示显著提高了每种方法的性能。

Nov, 2023

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

RAG 与 Fine-tuning：管道、权衡及农业案例研究

在本文中，我们提出了一种用于 fine-tuning 和 RAG 的流程，并介绍了它们在多种流行的 LLMs 中的权衡。我们对农业数据集进行了深入研究，结果显示我们的数据集生成流程在捕捉特定地理知识方面的有效性以及 RAG 和 fine-tuning 的定量和定性优势。整体而言，结果表明通过使用 LLMs 构建的系统可以适应和整合特定行业关键维度上的知识，为其他工业领域进一步应用 LLMs 铺平了道路。

Jan, 2024

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

加强问答系统的领域特定微调和迭代推理：一项比较研究

本文研究了领域特定的模型微调和推理机制对由大型语言模型（LLM）和检索增强生成（RAG）驱动的问答系统的性能的影响。通过使用 FinanceBench SEC 财务报告数据集，我们观察到，对于 RAG，将微调的嵌入模型与微调的 LLM 结合使用可以获得比通用模型更高的准确性，其中微调的嵌入模型所带来的收益相对更大。此外，在 RAG 之上使用推理迭代可以进一步提高性能，使问答系统更接近人类专家水平。我们讨论了这些发现的影响，提出了一个结构化的技术设计空间，涵盖了问答 AI 的主要技术组成部分，并为这些组成部分提供了高影响的技术选择建议。我们计划在本工作的基础上为 AI 团队提供具体指南，并进一步研究 RAG 中领域特定增强以及先进规划和推理等自主 AI 能力的影响。

Apr, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

上下文调整以提升检索增强生成

利用上下文调整的检索增强生成模型可以通过智能上下文检索系统获取相关信息，从而提高工具检索和计划生成的准确性。其中，语义搜索在不完整或缺乏上下文的情况下容易失效。经验证明，上下文调整显著提高了语义搜索的性能，并且对于上下文检索和工具检索任务分别实现了 3.5 倍和 1.5 倍的提升，同时使基于 LLM 的计划生成的准确性增加了 11.6％。此外，在使用倒数排名融合（RRF）和 LambdaMART 的轻量级模型时，还观察到了计划生成阶段的上下文增强可以减少虚构现象。

Dec, 2023

基于检索增强生成的大型语言模型的基准测试

通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估，本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战，表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。

Sep, 2023