ICLRDec, 2019

赌徒问题及其延伸

TL;DR分析了 Sutton 和 Barto(2018)中介绍的简单强化学习问题中赌徒问题的最优价值函数的确切公式,并发现它是分形的,并且是广义 Cantor 函数之一。