Jul, 2022

高效稳定的多步稀疏奖励强化学习的抽象演示和自适应探索

TL;DR本文提出了一种DRL探索技术A^2,通过将复杂任务分解成子任务、提供正确的子任务顺序以及自适应探索环境的方式,改善了学习效率,实验表明在多个任务中,A^2有助于DQN、DDPG和SAC等普通DRL算法在这些环境中更高效、更稳定地学习。