大型语言模型作为优化器

Sep, 2023

Large Language Models as Optimizers

Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le...

TL;DR在此工作中，我们提出了一种名为 OPRO 的优化方法，利用大型语言模型作为优化器，通过自然语言描述优化任务。我们首先展示了 OPRO 在线性回归和旅行商问题上的应用，然后转向优化提示，目标是找到最大化任务准确性的指令。我们通过多种大型语言模型的实验证明，OPRO 通过优化提示的方式胜过人工设计的提示，在 GSM8K 上提高了最多 8％，在 Big-Bench Hard 任务上提高了最多 50％。

Abstract

optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose optimizat

optimization large language models opro linear regression prompt optimization

发现论文，激发创造

重新审视 OPRO：小规模语言模型作为优化器的局限性

通过使用 LLMs 作为优化器找到最大化任务准确性的指令，Optimization by PROmpting (OPRO) 方法在相对小规模的 LLMs 上展现了有限的有效性，我们建议未来的自动提示工程要考虑模型能力和计算成本，并针对小规模 LLMs 使用明确概述目标和方法的直接指令作为鲁棒的提示基准，以确保正在进行的研究中的高效有效的提示工程。

May, 2024

释放大语言模型作为启发优化器的潜力：一种与基于梯度的模型优化器的类比分析

自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角，通过与基于梯度的模型优化器进行类比，设计了改进的 LLM-based 提示优化器的策略。实验结果表明 GPO 具有有效性和高效性，并分别相对基准方法在 Big-Bench Hard 和 MMLU 上带来了多达 56.8% 和 55.3% 的额外改进。

Feb, 2024

大型语言模型是否擅长优化提示？

通过细致研究 LLM-based Automatic Prompt Optimization 的机制，发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见，难以正确识别错误的真正原因；此外，LLM 优化器在语义上有效的反思时，由于目标模型行为的难以预测性，往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式，以更可控的方式直接优化目标模型的行为，希望本研究能启发自动提示优化的新方向。

Feb, 2024

无梯度和演示的大型语言模型交互式任务的提示优化

研究提出了 LLM-PO，一种新方法，可以使 LLMs 在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求 LLMs 根据其采集的经验反思当前计划的优缺点，并根据 LLMs 的反馈来更新计划和收集更多的经验，从而解决交互式任务。在 HotpotQA 上的实验表明，LLM-PO 的成功率比基于上下文的学习（ICL）基线更高或相当，同时需要更少的推理成本。

May, 2023

本地化零阶指示优化

通过对提示优化进行全面的实证研究，我们得出两个主要结论：相对全局最优解的罕见性，局部最优解普遍存在且表现良好（洞见一）。输入域的选择对于识别表现良好的局部最优解起着重要作用（洞见二）。受到这些洞见的启发，我们提出了一种新的算法 —— 局部零阶提示优化（ZOPO），将基于神经切向核的推导高斯过程纳入标准零阶优化中，以高效搜索在提示优化中表现良好的局部最优解。通过广泛的实验证明，ZOPO 在优化性能和查询效率方面优于现有基线模型。

Mar, 2024

使用 “梯度下降” 和束搜索优化自动提示

本文提出了一种自动优化提示技术（APO）来改进 Large Language Models（LLMs）的图灵能力，APO 采用数值梯度下降的方法来自动更改提示语并带来了很大的效率提升和预测性能的提升。

May, 2023

多阶段语言模型程序的指示和演示优化

为了最大化下游度量而没有模块级别的标签或梯度，我们研究了语言模型程序的提示优化，即如何更新这些提示。我们通过优化自由形式的指令和少样本演示来解决这个问题，并引入了几种策略来制定任务相关的指令和在模块之间导航学分分配。使用这些策略，我们开发了一个名为 MIPRO 的新型优化器，在使用最先进的开源模型（Llama-3-8B）的六个不同的语言模型程序中，准确率高达 12.9% 优于基线。我们将在此 URL 发布我们的新优化器和基准测试。

Jun, 2024

双相加速提示优化

通过采用良好设计的元指令，我们提出了一个双重阶段的方法来加速提示优化过程，以应对低收敛速度的挑战，并在句级别上迭代优化提示，利用之前的调优经验扩展提示候选并接受有效的候选。对八个数据集进行的大量实验证明了我们提出的方法的有效性，在少于五次优化步骤的情况下与基准模型相比实现了一致的准确率提升。

Jun, 2024

连接大型语言模型与进化算法产生强大的提示优化器

通过连接大型语言模型和进化算法，本论文提出了一种用于离散提示优化的新框架 ——EvoPrompt，极大地提升了语言理解和生成任务中大型语言模型的表现，并展示了语言模型与传统算法结合的协同效应。

Sep, 2023

提示作为探究：利用语言模型进行知识库构建

本文提出了一种名为 ProP 的方法，它利用 GPT-3 这个大型语言模型进行知识库构建任务，结合多种提示技巧，结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等，从而获得了较高的预测质量。

Aug, 2022