Nov, 2024
ACING:在黑箱大型语言模型中用于指令学习的演员-评论家方法
ACING: Actor-Critic for Instruction Learning in Black-Box Large Language
Models
TL;DR本研究解决了大型语言模型(LLMs)指令优化的难题,特别是在黑箱情况下缺乏模型参数和梯度的可用信息。提出了一个创新的演员-评论家基于强化学习的方法(ACING),能够从非可微的奖励信号中学习并优化提示。实验结果表明,ACING在30个指令性任务中的表现超过了基线方法,具有高达39个百分点的提升,展现了其潜在的广泛影响。