Jul, 2022

高效稳定的多步稀疏奖励强化学习的抽象演示和自适应探索

TL;DR本文提出了一种 DRL 探索技术 A^2,通过将复杂任务分解成子任务、提供正确的子任务顺序以及自适应探索环境的方式,改善了学习效率,实验表明在多个任务中,A^2 有助于 DQN、DDPG 和 SAC 等普通 DRL 算法在这些环境中更高效、更稳定地学习。