重新审视 OPRO：小规模语言模型作为优化器的局限性

May, 2024

重新审视 OPRO：小规模语言模型作为优化器的局限性

Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers

Tuo Zhang, Jinyue Yuan, Salman Avestimehr

TL;DR通过使用 LLMs 作为优化器找到最大化任务准确性的指令，Optimization by PROmpting (OPRO) 方法在相对小规模的 LLMs 上展现了有限的有效性，我们建议未来的自动提示工程要考虑模型能力和计算成本，并针对小规模 LLMs 使用明确概述目标和方法的直接指令作为鲁棒的提示基准，以确保正在进行的研究中的高效有效的提示工程。

Abstract

Numerous recent works aim to enhance the efficacy of large language models (LLMs) through strategic prompting. In particular, the optimization

large language models strategic prompting optimization small-scale llms prompt engineering

发现论文，激发创造

大型语言模型作为优化器

在此工作中，我们提出了一种名为 OPRO 的优化方法，利用大型语言模型作为优化器，通过自然语言描述优化任务。我们首先展示了 OPRO 在线性回归和旅行商问题上的应用，然后转向优化提示，目标是找到最大化任务准确性的指令。我们通过多种大型语言模型的实验证明，OPRO 通过优化提示的方式胜过人工设计的提示，在 GSM8K 上提高了最多 8％，在 Big-Bench Hard 任务上提高了最多 50％。

Sep, 2023

大型语言模型是否擅长优化提示？

通过细致研究 LLM-based Automatic Prompt Optimization 的机制，发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见，难以正确识别错误的真正原因；此外，LLM 优化器在语义上有效的反思时，由于目标模型行为的难以预测性，往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式，以更可控的方式直接优化目标模型的行为，希望本研究能启发自动提示优化的新方向。

Feb, 2024

多阶段语言模型程序的指示和演示优化

为了最大化下游度量而没有模块级别的标签或梯度，我们研究了语言模型程序的提示优化，即如何更新这些提示。我们通过优化自由形式的指令和少样本演示来解决这个问题，并引入了几种策略来制定任务相关的指令和在模块之间导航学分分配。使用这些策略，我们开发了一个名为 MIPRO 的新型优化器，在使用最先进的开源模型（Llama-3-8B）的六个不同的语言模型程序中，准确率高达 12.9% 优于基线。我们将在此 URL 发布我们的新优化器和基准测试。

Jun, 2024

释放大语言模型作为启发优化器的潜力：一种与基于梯度的模型优化器的类比分析

自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角，通过与基于梯度的模型优化器进行类比，设计了改进的 LLM-based 提示优化器的策略。实验结果表明 GPO 具有有效性和高效性，并分别相对基准方法在 Big-Bench Hard 和 MMLU 上带来了多达 56.8% 和 55.3% 的额外改进。

Feb, 2024

无梯度和演示的大型语言模型交互式任务的提示优化

研究提出了 LLM-PO，一种新方法，可以使 LLMs 在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求 LLMs 根据其采集的经验反思当前计划的优缺点，并根据 LLMs 的反馈来更新计划和收集更多的经验，从而解决交互式任务。在 HotpotQA 上的实验表明，LLM-PO 的成功率比基于上下文的学习（ICL）基线更高或相当，同时需要更少的推理成本。

May, 2023

透视 LLMs 的词汇敏感性：为 Prompt 增强进行组合优化

结合最近的研究，本文发现大型语言模型对任务指令中的词语变化非常敏感，即使对人类来说变化几乎无法察觉。通过在潜在表示空间中提供相近但仅有一个语义上相似的词语的邻居指令，我们发现模型在完成下游任务的性能会有巨大差异。基于这一性质，我们提出了一个黑盒优化框架，即 Prompt Lexical Enhancement 的组合优化（COPLE）。COPLE 根据一批代理任务的反馈进行迭代的词语优化，并使用与词语影响力相关的搜索策略。实验证明，即使是目前流行的人工设计的提示任务，也因模型对词语敏感性而受到影响，而 COPLE 在遵循指令、解决下游任务方面恢复了模型的性能。

May, 2024

ORLM：训练大型语言模型用于优化建模

通过训练开源的大型语言模型（LLMs）来处理自动化优化建模中的数据隐私问题，提出了定制化合成数据的半自动化过程（OR-Instruct），并在实际应用中实现了显著改进的优化建模能力。

May, 2024

一个提示不够：混合专家提示的自动构建

使用 Mixture-of-Expert 范例，将问题空间划分为子区域，为每个区域构建专业专家，通过演示集和一条指令来实现任务的智能引导。

Jun, 2024

Agent-Pro: 通过策略层面的反思与优化进行学习进化

Agent-Pro 是基于 LLM 的智能代理，具备策略级别的反思和优化能力，可以通过互动经验不断学习和提升行为策略，在复杂和动态场景中表现出色。

Feb, 2024

一次创意主导的全部：用于观点摘要评估的 LLMs

我们使用 SUMMEVAL-OP 数据集评估意见摘要，使用大型语言模型作为参考自由指标，发现 Op-I-Prompt 是评估意见摘要的良好替代方法，与人类判断的平均斯皮尔曼相关性达到 0.70，超过了以前的所有方法。这是我们在意见摘要领域首次探索使用开源和闭源模型的大型语言模型作为评估器。

Feb, 2024