Sep, 2021

使用后验抽样学习零和随机博弈

TL;DR本文提出了后验采样强化学习算法,用于处理无限期零和随机博弈问题,在对手可以采取任意自适应策略的情况下,实现贝叶斯遗憾度的上界,并以平均奖励作为参数进行优化。该算法突破了当前数据的下限,并提高了效率。