利用似然性作为检索增强生成的性能评估工具
本文提出了两种基于提示的方法,以选择自然语言生成模型生成的高质量问题,旨在解决多样性提高与模型选择的问题。经过自动化和人工评估,结果表明,与贪婪算法相比,我们的方法能够有效地选择更高质量的问题。
Sep, 2022
本文提出了基于大语言模型的Few-shot Dense Retrieval任务中Prompt-based Query Generation for Retriever (Promptagator)方法,利用少量任务单独的知识生成具有任务特定的检索器并使用LLM促进扩展性,与传统基于自然问题或MS MARCO的训练方式相比,使用8个或更少的样本提示LLM生成的双编码器可以显著提高检索性能达1.2个nDCG以上。
Sep, 2022
使用ASK ME ANYTHING(AMA)方法,通过开发多种不同的有效提示信息并进行权衡,采用弱监督程序结合这些提示信息来创造性地提高了大型语言模型的性能。该方法可以使开源GPT-J-6B模型在15个流行基准测试中优于few-shot GPT3-175B模型。
Oct, 2022
通过细调、检索增强生成(RAG)和软提示等方法提高大型语言模型(LLMs)的性能的研究一般侧重于使用高度技术性或高成本的技术,使许多新发现的方法对非技术用户相对不可访问。在本文中,我们测试了未修改版本的GPT 3.5,经过细调的版本,以及相同的未修改模型在访问矢量化的RAG数据库时,单独或与基本的非算法软提示相结合。每种情况下,我们测试了模型回答一组100个与2021年9月之后(GPT 3.5的训练数据集结束的时间点)相关的事件问题的能力。我们发现,如果使用商业平台并应用默认设置以建立基准输出集,经过细调的模型优于GPT 3.5 Turbo,而RAG方法优于两者。应用软提示显著提高了每种方法的性能。
Nov, 2023
本研究通过引入一种新的优化技术(称为GGPP),系统评估了在Retrieval-Augmented Generation模型上插入前缀对输出结果的影响,并通过神经元激活差异提供了一种改善该模型的鲁棒性的方法。
Feb, 2024
我们提出了一种新颖的RAG提示方法,即超级叠加提示,可以直接应用于预训练的基于transformer的大语言模型,无需进行精调,以解决大语言模型在处理长上下文时的推理成本呈二次比例增长、输出质量受无关上下文干扰的问题。我们的方法可以同时提高各种问答基准测试的时间效率,并且在检索到的上下文相对于模型训练时的上下文更大的情况下显著提高准确性。
Apr, 2024
我们提出了一种新的方法来衡量检索增强的大型语言模型(RAG)的任务特定准确性。通过对与任务相关的文档语料库基于多项选择问题评分的自动生成合成考试来进行评估。我们的方法是自动化、成本高效、可解释和稳健的选择RAG系统的最佳组件的策略。我们利用项目反应理论(IRT)估计考试的质量和信息量,以提高任务特定准确性。我们在四个基于Arxiv摘要、StackExchange问题、AWS DevOps故障排除指南和SEC文件的新型开放问答任务上演示了我们的方法。此外,我们的实验揭示了影响RAG性能的更一般的因素,如大小、检索机制、提示和微调。最重要的是,我们的研究结果表明,选择正确的检索算法通常比仅仅使用更大的语言模型能够带来更大的性能收益。
May, 2024
检视检索增强生成 (RAG) 方法,揭示语言模型倾向于仅依赖上下文信息来回答问题,而较少使用参数化记忆,通过因果中介分析和注意力机制等方法来证明该机械行为。
Jun, 2024
通过元提示优化,我们提出了一种改进检索增强生成方法,用于在输入提示中包含检索的内容,以提高性能。在对具有多跳问题回答任务的StrategyQA数据集进行实证测试后,评估结果表明,该方法的性能优于没有此方法的类似检索增强系统超过30%。
Jul, 2024