Jul, 2017

在复杂环境中产生运动行为

TL;DR本文研究增强学习中环境对复杂行为的促进作用,通过在多个不同环境下训练代理人,使用基于前进步伐的简单奖励函数,利用可扩展的策略梯度强化学习方法,代理人可以学会奔跑、跳跃、蹲下和转弯等复杂行为而无需明确的基于奖励的指导。