Feb, 2016

对抗环境学习的高效算法

TL;DR该论文提出了用于对抗环境下上下文相关强化学习问题的第一种 Oracle 有效的亚线性后悔算法,分析了两个场景,其中一个是传递式场景,另一个是小分离器设置