ICMLMay, 2014
自适应赌博分配的蒙特卡罗方法
Adaptive Monte Carlo via Bandit Allocation
James Neufeld, András György, Dale Schuurmans, Csaba Szepesvári
TL;DR本研究提出了一种基于随机多臂老虎机问题的方法,用于在多个 Monte Carlo 估计器之间进行选择以最小化均方误差,并将该方法扩展到估计器成本不同的情况下,提供了一种新的自适应 Monte Carlo 策略,优于以往的方法。