Apr, 2023

智能体与陌生人进行接力赛?将强化学习泛化到分布之外的轨迹

TL;DR本文主要研究重新概括(relay-generalization)强化学习(reinforcement learning,RL)代理人在可控状态下的性能,并提出一种名为自我轨迹增强(Self-Trajectory Augmentation,STA)的新方法,用于提高代理人在这类状态下的泛化性能,实验证明这种方法有效。