Oct, 2023

多智能体强化学习中的合作提示优化

TL;DR最近,基于强化学习的自动化提示优化引起了越来越多的关注。这种方法具有重要优势,比如生成可解释的提示并与黑匣子基础模型兼容。然而,庞大的提示空间大小对于基于强化学习的方法构成挑战,常常导致次优策略收敛。本文提出了MultiPrompter,一个新的框架,将提示优化视为一种在协作博弈中,由提示者轮流共同组成提示的过程。我们的协作提示优化有效地减小了问题的规模,并帮助提示者学习到最优提示。我们在文本到图像任务上测试了我们的方法,并展示了其生成比基准模型更高质量图像的能力。