Feb, 2020

线性部分监督的信息引导采样

TL;DR该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率,并且针对所有有限博弈分类了最小最大遗憾,IDS 在所有情况下都实现了最优率。