离线激励评估与优化
本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容,并通过 multi-task learning 提高该方法的泛化能力和适应性,实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。
Jun, 2022
该论文提出了一种基于强化学习的离散提示优化方法(RLPrompt),旨在有效地生成适合不同类型的预训练语言模型使用的离散提示,并在极少量的下游数据情况下表现出优异的表现。
May, 2022
通过自动提示工程算法 APEER,大型语言模型在信息检索中的零样本相关性排名取得了显著的性能提升,并展现出更好的跨任务和跨语言模型的可迁移性。
Jun, 2024
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
在这篇论文中,我们提出了一种名为 RePrompt 的新方法,通过从与 LLM 代理的交互中获取的聊天记录,逐步优化 LLM 代理的提示,从而使 LLM 在特定领域中学会规划,我们在 PDDL 生成和旅行规划的实验中证明了我们的方法可以提高不同推理任务的性能。
Jun, 2024
本文提出了一种离线强化学习方法 ILQL,以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点,以指导语言模型的生成来最大化效用,并在自然语言生成环境中有效地优化高方差奖励函数。
Jun, 2022
最近,基于强化学习的自动化提示优化引起了越来越多的关注。这种方法具有重要优势,比如生成可解释的提示并与黑匣子基础模型兼容。然而,庞大的提示空间大小对于基于强化学习的方法构成挑战,常常导致次优策略收敛。本文提出了 MultiPrompter,一个新的框架,将提示优化视为一种在协作博弈中,由提示者轮流共同组成提示的过程。我们的协作提示优化有效地减小了问题的规模,并帮助提示者学习到最优提示。我们在文本到图像任务上测试了我们的方法,并展示了其生成比基准模型更高质量图像的能力。
Oct, 2023
该研究提出了一种新颖的方法,逆提示(inverse prompting),通过使用生成文本对提示进行逆向预测,以增强提示和生成文本之间的相关性并提高可控性,实证研究表明该方法在生成文本的开放领域有着很好的表现,该研究提供的代码可供研究者使用。
Mar, 2021
通过细致研究 LLM-based Automatic Prompt Optimization 的机制,发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见,难以正确识别错误的真正原因;此外,LLM 优化器在语义上有效的反思时,由于目标模型行为的难以预测性,往往在单次优化步骤中难以生成适当的提示。因此我们提出了 “Automatic Behavior Optimization” 新范式,以更可控的方式直接优化目标模型的行为,希望本研究能启发自动提示优化的新方向。
Feb, 2024