Feb, 2017

模拟器:理解中等置信度下的自适应采样

TL;DR提出了一种名为模拟器的新技术,用于分析自适应取样,该方法通过考虑已收集的有限数据量不足以区分好的采样策略和不好的采样策略的难度,从而超越了现有方法,使我们能够匹配Fano和change-of-measure技术的优点,并应用于固定置信度的纯探索设置中的多臂赌博机问题,展现出系统中各个部分的现象。