Mar, 2020

基于无模型强化学习的乒乓球机器人

TL;DR通过控制机器人关节以 100Hz 的速度返回乒乓球,我们提出了一种模型无关的算法,并证明了进化搜索方法能够在非视觉输入和时间之间卷积的基础上作用于基于 CNN 的策略体系结构,学习紧凑的控制器,在适当调整任务和奖励的情况下,策略能够发展多模态样式,同时在广泛的球类投掷范围内实现 80%的回球率,观察到多模性不需要任何建筑先验知识。