Dec, 2019

使用倒置强化学习训练智能体

TL;DR本文提出了一种名为 UDRL 的方法,该方法利用监督学习技术学习行为,不需要奖励预测或寻找最优策略,通过训练智能体遵循指令而不是预测奖励的方法,可以在多个情境环境下产生一系列有用的行为,并且在某些任务上其表现甚至超越了传统基准算法,并提出了期望奖励最大化以外的替代方法在训练有用的自主代理方面具有重要作用。