Oct, 2024

语言作为指引:通过高层语言提示指导强化学习代理

TL;DR本研究针对强化学习中稀疏奖励环境所面临的探索挑战,提出了一种教师-学生强化学习框架,利用大型语言模型作为教师,帮助代理通过细分复杂任务为子目标来学习。实验结果表明,此方法显著加速了学习速度,并在复杂任务中提高了探索效率,训练步骤的收敛速度比目前在稀疏奖励环境中设计的基线快30至200倍。