ACLJun, 2024

STARLING:基于大型语言模型的文本强化学习自监督训练代理

TL;DR自动化游戏生成的 STARLING 环境为基于文本的强化学习代理提供了提升性能和泛化能力的能力,以通过与预定义任务集上的训练来提高代理的技能水平。