从对比提示中学习:自动化优化和适应
本文中,我们提出了一种统一的框架来解释和评估现有的概率基准选取方法,对13个常见的NLP任务进行了广泛的实验,并发现所有现有方法都可以统一为一些变量的方法,这些方法最大化了输入和相应模型输出之间的互信息,并提出了几种互信息的变体,并通过较新的校准方法,即Margin- Calibration by Marginalization(CBM)提高了最佳选择方法的准确性,从而将选中问题的性能与最佳Oracle问题的性能比率提高到99.44%。
May, 2023
通过细致研究LLM-based Automatic Prompt Optimization的机制,发现LLM优化器在自我反思时往往倾向于以自身的先验知识为偏见,难以正确识别错误的真正原因;此外,LLM优化器在语义上有效的反思时,由于目标模型行为的难以预测性,往往在单次优化步骤中难以生成适当的提示。因此我们提出了“Automatic Behavior Optimization”新范式,以更可控的方式直接优化目标模型的行为,希望本研究能启发自动提示优化的新方向。
Feb, 2024
本研究介绍了一种自动提示工程的新方法,通过迭代完善用户意图的提示进程来优化系统性能,使用边界用例的合成数据进行优化,并验证了系统的关键组件优势。
Feb, 2024
本综述论文通过提供近期进展的结构化概述,对提示工程的不同方法和技术进行分类,详细介绍了提示方法学、应用领域、所使用的模型和数据集,并探讨了每种方法的优点、局限性以及通过分类图和表格总结了数据集、模型和关键点,从而更好地理解这一快速发展领域并为提示工程的未来研究提供洞察、揭示了开放性挑战和机遇。
Feb, 2024
通过结合人类设计的反馈规则,采用基于遗传算法的大语言模型驱动的离散提示优化框架,实现了对多步任务中自动提示的改进,相比现有的方法,平均有27.7%和28.2%的改善效果。
Feb, 2024
LLMs have demonstrated commendable performance across diverse domains, but formulating high-quality prompts to effectively instruct LLMs poses a challenge. Inspired by structured reusable programming languages, LangGPT is proposed as a dual-layer prompt design framework that significantly enhances the capacity of LLMs to produce superior responses and has proven effective in guiding LLMs to generate high-quality prompts.
Feb, 2024
自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角,通过与基于梯度的模型优化器进行类比,设计了改进的LLM-based提示优化器的策略。实验结果表明GPO具有有效性和高效性,并分别相对基准方法在Big-Bench Hard和MMLU上带来了多达56.8%和55.3%的额外改进。
Feb, 2024
基于大规模语言模型的广泛使用,提出了一种用于预测提示组合效果的框架PEPR,并提供了简单方法用于选择有效的提示。在不同任务上,利用不同规模的开源语言模型对该方法进行了评估。
May, 2024
本研究解决了现有提示设计方法在处理复杂任务时的局限性。提出了一种新的提示递归搜索框架,利用大型语言模型生成特定问题的解决方案,优化令牌使用并降低错误概率。实验结果表明,与链式思维方法相比,该框架在BBH数据集上的准确率提高了8%,实现了22%的整体改善。
Aug, 2024