MAPO:使用模型自适应的启动优化提升大型语言模型性能
研究提出了LLM-PO,一种新方法,可以使LLMs在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求LLMs根据其采集的经验反思当前计划的优缺点,并根据LLMs的反馈来更新计划和收集更多的经验,从而解决交互式任务。在HotpotQA上的实验表明,LLM-PO的成功率比基于上下文的学习(ICL)基线更高或相当,同时需要更少的推理成本。
May, 2023
在此工作中,我们提出了一种名为OPRO的优化方法,利用大型语言模型作为优化器,通过自然语言描述优化任务。我们首先展示了OPRO在线性回归和旅行商问题上的应用,然后转向优化提示,目标是找到最大化任务准确性的指令。我们通过多种大型语言模型的实验证明,OPRO通过优化提示的方式胜过人工设计的提示,在GSM8K上提高了最多8%,在Big-Bench Hard任务上提高了最多50%。
Sep, 2023
通过细致研究LLM-based Automatic Prompt Optimization的机制,发现LLM优化器在自我反思时往往倾向于以自身的先验知识为偏见,难以正确识别错误的真正原因;此外,LLM优化器在语义上有效的反思时,由于目标模型行为的难以预测性,往往在单次优化步骤中难以生成适当的提示。因此我们提出了“Automatic Behavior Optimization”新范式,以更可控的方式直接优化目标模型的行为,希望本研究能启发自动提示优化的新方向。
Feb, 2024
本综述论文通过提供近期进展的结构化概述,对提示工程的不同方法和技术进行分类,详细介绍了提示方法学、应用领域、所使用的模型和数据集,并探讨了每种方法的优点、局限性以及通过分类图和表格总结了数据集、模型和关键点,从而更好地理解这一快速发展领域并为提示工程的未来研究提供洞察、揭示了开放性挑战和机遇。
Feb, 2024
通过建立统一的上下文提示优化框架,本研究旨在实现上下文提示和示例的联合优化,并提出了一个高效的自动提示优化框架PhaseEvo,它结合了LLMs的生成能力和进化算法的全局搜索能力,通过创新的基于LLMs的变异操作提高搜索效率并加速收敛。实验证明,PhaseEvo在保持良好效率的同时大幅度优于最先进的基线方法。
Feb, 2024
自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角,通过与基于梯度的模型优化器进行类比,设计了改进的LLM-based提示优化器的策略。实验结果表明GPO具有有效性和高效性,并分别相对基准方法在Big-Bench Hard和MMLU上带来了多达56.8%和55.3%的额外改进。
Feb, 2024
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入-提示-输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零-shot问答数据集上显示出竞争性性能。
Apr, 2024
为了最大化下游度量而没有模块级别的标签或梯度,我们研究了语言模型程序的提示优化,即如何更新这些提示。我们通过优化自由形式的指令和少样本演示来解决这个问题,并引入了几种策略来制定任务相关的指令和在模块之间导航学分分配。使用这些策略,我们开发了一个名为MIPRO的新型优化器,在使用最先进的开源模型(Llama-3-8B)的六个不同的语言模型程序中,准确率高达12.9%优于基线。我们将在此URL发布我们的新优化器和基准测试。
Jun, 2024
通过总结44篇研究论文,本文讨论了大型语言模型在各个自然语言处理任务中的提示工程技术,包括39种不同的提示方法在29个不同的任务上的性能表现、使用的语言模型以及对特定数据集的可能最先进技术,并提供了任务分类图。
Jul, 2024