Jul, 2024

LLM增强型状态表示用于强化学习

TL;DR利用大型语言模型(LLM)的LESR方法自主生成与任务相关的状态表示代码,提高网络映射的连贯性并促进高效训练,实验证明LESR在Mujoco任务的累积奖励上平均超过基准水平29%,在Gym-Robotics任务的成功率上平均超过基准水平30%。