Jan, 2019

元学习中的奖励塑形

TL;DR本文提供了一种基于分布任务的meta-learning框架,自动学习新采样任务上的有效奖励塑形,从而解决了强化学习中信用分配的难题,并通过从DQN到DDPG的成功转移等各种设置,展示了探索 shaping 方法的有效性。