Sep, 2024

非平稳环境下的滑动窗口汤普森采样

TL;DR本研究解决了传统强盗算法在非平稳环境中表现不佳的问题。提出了两种基于汤普森采样的算法(BETA-SWTS和γ-SWGTS),并推导了任意强盗环境中后悔值的一般公式。研究结果对理解算法在不同非平稳环境(如剧烈变化和缓慢变化)中的表现具有重要意义。