重新审视 OPRO:小规模语言模型作为优化器的局限性
在此工作中,我们提出了一种名为 OPRO 的优化方法,利用大型语言模型作为优化器,通过自然语言描述优化任务。我们首先展示了 OPRO 在线性回归和旅行商问题上的应用,然后转向优化提示,目标是找到最大化任务准确性的指令。我们通过多种大型语言模型的实验证明,OPRO 通过优化提示的方式胜过人工设计的提示,在 GSM8K 上提高了最多 8%,在 Big-Bench Hard 任务上提高了最多 50%。
Sep, 2023
通过细致研究 LLM-based Automatic Prompt Optimization 的机制,发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见,难以正确识别错误的真正原因;此外,LLM 优化器在语义上有效的反思时,由于目标模型行为的难以预测性,往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式,以更可控的方式直接优化目标模型的行为,希望本研究能启发自动提示优化的新方向。
Feb, 2024
为了最大化下游度量而没有模块级别的标签或梯度,我们研究了语言模型程序的提示优化,即如何更新这些提示。我们通过优化自由形式的指令和少样本演示来解决这个问题,并引入了几种策略来制定任务相关的指令和在模块之间导航学分分配。使用这些策略,我们开发了一个名为 MIPRO 的新型优化器,在使用最先进的开源模型(Llama-3-8B)的六个不同的语言模型程序中,准确率高达 12.9% 优于基线。我们将在此 URL 发布我们的新优化器和基准测试。
Jun, 2024
自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角,通过与基于梯度的模型优化器进行类比,设计了改进的 LLM-based 提示优化器的策略。实验结果表明 GPO 具有有效性和高效性,并分别相对基准方法在 Big-Bench Hard 和 MMLU 上带来了多达 56.8% 和 55.3% 的额外改进。
Feb, 2024
研究提出了 LLM-PO,一种新方法,可以使 LLMs 在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求 LLMs 根据其采集的经验反思当前计划的优缺点,并根据 LLMs 的反馈来更新计划和收集更多的经验,从而解决交互式任务。在 HotpotQA 上的实验表明,LLM-PO 的成功率比基于上下文的学习(ICL)基线更高或相当,同时需要更少的推理成本。
May, 2023
结合最近的研究,本文发现大型语言模型对任务指令中的词语变化非常敏感,即使对人类来说变化几乎无法察觉。通过在潜在表示空间中提供相近但仅有一个语义上相似的词语的邻居指令,我们发现模型在完成下游任务的性能会有巨大差异。基于这一性质,我们提出了一个黑盒优化框架,即 Prompt Lexical Enhancement 的组合优化(COPLE)。COPLE 根据一批代理任务的反馈进行迭代的词语优化,并使用与词语影响力相关的搜索策略。实验证明,即使是目前流行的人工设计的提示任务,也因模型对词语敏感性而受到影响,而 COPLE 在遵循指令、解决下游任务方面恢复了模型的性能。
May, 2024
通过训练开源的大型语言模型(LLMs)来处理自动化优化建模中的数据隐私问题,提出了定制化合成数据的半自动化过程(OR-Instruct),并在实际应用中实现了显著改进的优化建模能力。
May, 2024
Agent-Pro 是基于 LLM 的智能代理,具备策略级别的反思和优化能力,可以通过互动经验不断学习和提升行为策略,在复杂和动态场景中表现出色。
Feb, 2024
我们使用 SUMMEVAL-OP 数据集评估意见摘要,使用大型语言模型作为参考自由指标,发现 Op-I-Prompt 是评估意见摘要的良好替代方法,与人类判断的平均斯皮尔曼相关性达到 0.70,超过了以前的所有方法。这是我们在意见摘要领域首次探索使用开源和闭源模型的大型语言模型作为评估器。
Feb, 2024