Nov, 2017

基于终止策略的学习选择

TL;DR将行动选项的学习过程视为多步离线学习的一部分,提出了一种新算法Q(beta),可以在任意结束条件下学习最优解,从而解决了行动选项长度对学习效率和解决方案质量的矛盾。