May, 2019

超越指数衰减求和:自动学习回报函数

TL;DR本文研究如何改变回报函数的形式来增强学习最优策略,提出使用通用数学形式的回报函数,并通过元学习来以端到端的方式学习最优回报函数,在迷宫环境和多个 Atari 游戏上进行测试,实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。