Sep, 2018

使用基线的蒙特卡罗对策遗憾最小化中的方差缩减(VR-MCCFR)在广义式博弈中的应用

TL;DR本文介绍了一种方差缩减技术 VR-MCCFR,它可以应用于任何 MCCFR 的采样变型方法。这个新公式可以从同一事件中的其他估计值启动引导,即引导基线在采样轨迹上沿估计传递收益,而估计值保持不偏。实验结果表明,VR-MCCFR 可以提供一个数量级的加速,同时经验方差降低三个数量级。方差的降低使得 CFR + 可以和采样一起使用,加速两个数量级。