Nov, 2024

ACING:在黑箱大型语言模型中用于指令学习的演员-评论家方法

TL;DR本研究解决了大型语言模型(LLMs)指令优化的难题,特别是在黑箱情况下缺乏模型参数和梯度的可用信息。提出了一个创新的演员-评论家基于强化学习的方法(ACING),能够从非可微的奖励信号中学习并优化提示。实验结果表明,ACING在30个指令性任务中的表现超过了基线方法,具有高达39个百分点的提升,展现了其潜在的广泛影响。