Dec, 2023

线性上下文强化学习最佳方案

TL;DR该研究探讨了在对抗性破坏下的 K 臂线性上下文赌博问题,并提出了一种在随机和对抗环境下具有理论保证的名为最佳两全(BoBW) RealFTRL 的策略。