Jul, 2022
高效稳定的多步稀疏奖励强化学习的抽象演示和自适应探索
Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning
TL;DR本文提出了一种DRL探索技术A^2,通过将复杂任务分解成子任务、提供正确的子任务顺序以及自适应探索环境的方式,改善了学习效率,实验表明在多个任务中,A^2有助于DQN、DDPG和SAC等普通DRL算法在这些环境中更高效、更稳定地学习。