Sep, 2017
一种最优的在线强化学习源策略选择方法
An Optimal Online Method of Selecting Source Policies for Reinforcement Learning
Siyuan Li, Chongjie Zhang
TL;DR本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择,证明了其最优选择过程和收敛到最优策略的理论保证,同时通过与最先进的传递学习方法在机器人导航领域上的实验比较,证明了其高效性和鲁棒性。