ICMLFeb, 2020

可证明自我对弈算法用于竞争性强化学习

TL;DR研究自博弈算法在 Markov 游戏中的应用,提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法,并证明了其在策略最佳化中的有效性和高样本利用率。