Sep, 2023

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

TL;DRRLAdapter 通过引入一个适配器模型,在强化学习和大型语言模型之间建立更好的联系,通过在 RL 代理的训练过程中生成的信息来微调轻量级语言模型,从而在适应下游任务方面提供更好的指导,并在 Crafter 环境中实验表明 RLAdapter 超过了基线模型,且我们的框架下的代理展现出了常识行为。