Jun, 2019

透过事后目标生成进行探索

TL;DR本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation,该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径,以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中,实验证明了该算法的有效性和优越性。