使用 “梯度下降” 和束搜索优化自动提示
自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角,通过与基于梯度的模型优化器进行类比,设计了改进的 LLM-based 提示优化器的策略。实验结果表明 GPO 具有有效性和高效性,并分别相对基准方法在 Big-Bench Hard 和 MMLU 上带来了多达 56.8% 和 55.3% 的额外改进。
Feb, 2024
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
我们研究了自动的长提示工程算法,证明了贪婪算法和遗传算法在搜索效率方面的优越性,并引入了两种利用搜索历史增强搜索算法效果的新技术。我们的研究结果表明,该算法在 Big Bench Hard 的八个任务中实现了平均 9.2% 的准确度提升,突显了自动化提示设计对充分利用 LLMs 的能力的重要性。
Nov, 2023
研究使用提示工程来提高临床笔记生成中大型语言模型的性能,引入一种自动提示优化(APO)框架来改进初始提示,并比较医学专家、非医学专家以及 APO 增强的 GPT3.5 和 GPT4 的输出结果。结果突显了 GPT4 APO 在标准化临床笔记各个部分的提示质量方面表现优越。人机协同方法表明专家在 APO 后保持内容质量,偏好对自己的修改,这表明专家定制化的价值。我们建议采用两阶段的优化过程,利用 APO-GPT4 提高一致性,并利用专家意见进行个性化。
Nov, 2023
本文提出了一种用于自动化生成和优化大型语言模型中提示的新框架 AutoHint,该框架利用了输入 - 输出演示派生的丰富指示来优化原始提示。通过将当前 LMM 的丰富指示嵌入 LLM 训练中,该方法可以大大提高多个任务的准确性。
Jul, 2023
通过采用良好设计的元指令,我们提出了一个双重阶段的方法来加速提示优化过程,以应对低收敛速度的挑战,并在句级别上迭代优化提示,利用之前的调优经验扩展提示候选并接受有效的候选。对八个数据集进行的大量实验证明了我们提出的方法的有效性,在少于五次优化步骤的情况下与基准模型相比实现了一致的准确率提升。
Jun, 2024
使用语言模型作自然语言指导的条件,我们提出了自动提示工程师(APE),通过搜索竞选一组精心设计的自动生成的提示中的最佳提示来优化指令来解决 NLP 任务中的性能问题,并实现对模型的更好的指导和性能提升。在 24 个任务中,通过自动产生的新指令,我们的 APE 方法可使性能提高,并在 19 个任务中的性能甚至好于人类注释者生成的指令。通过大量定性和定量分析,我们证明了 APE 的有效性。
Nov, 2022
通过细致研究 LLM-based Automatic Prompt Optimization 的机制,发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见,难以正确识别错误的真正原因;此外,LLM 优化器在语义上有效的反思时,由于目标模型行为的难以预测性,往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式,以更可控的方式直接优化目标模型的行为,希望本研究能启发自动提示优化的新方向。
Feb, 2024
利用自动化方法生成的 AutoPrompt,我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力,以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。
Oct, 2020