Feb, 2018

DiGrad:共享动作的多任务强化学习

TL;DR本论文提出了一种名为 DiGrad 的新方法,采用微分策略梯度来实现在单个 actor-critic 神经网络中学习多个共享动作的多个任务,在复杂的机器人系统中实现高效的多任务学习,同时在连续动作空间中优于相关方法。