Feb, 2024

部分可观察情境下的汤普森抽样

TL;DR基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用,通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题,为研究其他具有上下文信息和部分观测的决策问题铺平了道路。