May, 2017

正确地进行玻尔兹曼探索

TL;DR本文讨论 Boltzmann 探索策略在不同情况下的效果,提出了一种新的方法,可以在不知道时间范围和次优解差距的情况下,保证了概率分布相关和独立的后悔界限。