Sep, 2020

固定数据集策略优化中悲观主义的重要性

TL;DR本文研究了固定数据集策略优化算法的预期回报的最坏情况保证,并提出了一种统一的概念和数学框架来研究这个领域的算法,指出了朴素方法可能出现高估价值的情况。为了避免这种情况,可以使用悲观策略,该策略可以在数据集不完整的情况下实现良好表现,本文还给出了遵循悲观策略的算法家族,最后在一些实验中验证了这些理论结果。