Sep, 2017

一种最优的在线强化学习源策略选择方法

TL;DR本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择,证明了其最优选择过程和收敛到最优策略的理论保证,同时通过与最先进的传递学习方法在机器人导航领域上的实验比较,证明了其高效性和鲁棒性。