Apr, 2021

关于批化策略优化算法的最优性

TL;DR提出一种称为置信回报指数算法的类别与加权极小极大准则,用于解决有限武装随机赌徒问题中的批处理策略优化。研究表明,任何置信回报指数算法都是极小极大优的,无论乐观、悲观还是中性。同时,我们还演示了如何使用加权极小极大准则来证明通常用于批处理策略优化的悲观原则。