Jun, 2017

强化学习的混合奖励体系结构

TL;DR本文介绍了一种新的强化学习方法 —— 混合奖励架构(HRA),通过利用分解奖励函数并为每个组成部分学习单独的价值函数来实现应对价值函数无法轻易降维的领域的挑战。在获得 Ms. Pac-Man 游戏高于人类成绩的优异表现后,证明了 HRA 在玩具问题和 Atari 游戏 Ms. Pac-Man 上的有效性。