Oct, 2022

基于自博弈后验采样算法的零和Markov博弈

TL;DR该文提出了一种新颖的基于后验采样算法的马尔可夫博弈的可证明有效性算法,其中实现了对广义函数逼近的解决方案,并证明了该算法在满足一定条件的问题中具有 sqrt(T) 的后悔上限,丰富了 MGs 的工具箱并促进了后验采样的广泛应用。