使用倒置强化学习训练智能体

Dec, 2019

Training Agents using Upside-Down Reinforcement Learning

Rupesh Kumar Srivastava, Pranav Shyam, Filipe Mutz, Wojciech Jaśkowski, Jürgen Schmidhuber

TL;DR本文提出了一种名为 UDRL 的方法，该方法利用监督学习技术学习行为，不需要奖励预测或寻找最优策略，通过训练智能体遵循指令而不是预测奖励的方法，可以在多个情境环境下产生一系列有用的行为，并且在某些任务上其表现甚至超越了传统基准算法，并提出了期望奖励最大化以外的替代方法在训练有用的自主代理方面具有重要作用。

Abstract

Traditional Reinforcement Learning (RL) algorithms either predict rewards with value functions or maximize them using policy search. We study an alternative: upside-down reinforcement learning (Upside-Down RL or UDRL), that solves RL problems primarily using →