Apr, 2024

上下文决斗赌徒的良好感知汤普森抽样

TL;DR提出了适用于线性上下文对抗性对决带的一种名为FGTS.CDB的汤普森抽样算法,最小化遗憾,并在合成数据上证明比现有算法表现优秀。