离线激励评估与优化

Sep, 2023

Offline Prompt Evaluation and Optimization with Inverse Reinforcement Learning

Hao Sun

TL;DR这篇论文介绍了 Prompt-OIRL，一种根源于脱机逆强化学习的方法，它旨在弥合有效提示评估和可承受性之间的差距，验证了该方法在四个 LLM 和三个算术数据集上的有效性，并释放了代码和离线数据集。

Abstract

The recent advances in the development of large language models (LLMs) like ChatGPT have achieved remarkable performance by leveraging human expertise. Yet, fully eliciting LLMs' potential for complex tasks requires navigating the vast search space of natural language prompts. While pr

large language models prompt optimization prompt-oirl offline prompt evaluation arithmetic datasets

发现论文，激发创造

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

RLPrompt：使用强化学习优化离散文本提示

该论文提出了一种基于强化学习的离散提示优化方法（RLPrompt），旨在有效地生成适合不同类型的预训练语言模型使用的离散提示，并在极少量的下游数据情况下表现出优异的表现。

May, 2022

APEER：自动提示工程提升大型语言模型重排

通过自动提示工程算法 APEER，大型语言模型在信息检索中的零样本相关性排名取得了显著的性能提升，并展现出更好的跨任务和跨语言模型的可迁移性。

Jun, 2024

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

大规模语言模型代理的自动提示工程规划

在这篇论文中，我们提出了一种名为 RePrompt 的新方法，通过从与 LLM 代理的交互中获取的聊天记录，逐步优化 LLM 代理的提示，从而使 LLM 在特定领域中学会规划，我们在 PDDL 生成和旅行规划的实验中证明了我们的方法可以提高不同推理任务的性能。

Jun, 2024

PRewrite: 提示重写与强化学习

我们在这篇论文中研究了自动化提示工程，提出了一种基于强化学习框架的自动工具 PRewrite，能够生成高效的新提示，优于以前提出的方法。

Jan, 2024

基于隐式语言 Q 学习的自然语言生成离线强化学习

本文提出了一种离线强化学习方法 ILQL，以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点，以指导语言模型的生成来最大化效用，并在自然语言生成环境中有效地优化高方差奖励函数。

Jun, 2022

多智能体强化学习中的合作提示优化

最近，基于强化学习的自动化提示优化引起了越来越多的关注。这种方法具有重要优势，比如生成可解释的提示并与黑匣子基础模型兼容。然而，庞大的提示空间大小对于基于强化学习的方法构成挑战，常常导致次优策略收敛。本文提出了 MultiPrompter，一个新的框架，将提示优化视为一种在协作博弈中，由提示者轮流共同组成提示的过程。我们的协作提示优化有效地减小了问题的规模，并帮助提示者学习到最优提示。我们在文本到图像任务上测试了我们的方法，并展示了其生成比基准模型更高质量图像的能力。

Oct, 2023

逆向提示控制预训练语言模型的生成

该研究提出了一种新颖的方法，逆提示（inverse prompting），通过使用生成文本对提示进行逆向预测，以增强提示和生成文本之间的相关性并提高可控性，实证研究表明该方法在生成文本的开放领域有着很好的表现，该研究提供的代码可供研究者使用。

Mar, 2021

大型语言模型是否擅长优化提示？

通过细致研究 LLM-based Automatic Prompt Optimization 的机制，发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见，难以正确识别错误的真正原因；此外，LLM 优化器在语义上有效的反思时，由于目标模型行为的难以预测性，往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式，以更可控的方式直接优化目标模型的行为，希望本研究能启发自动提示优化的新方向。

Feb, 2024