AAAISep, 2022

广义线性背景下双重双重稳健汤普森抽样

TL;DR提出了一种新颖的上下文强化学习算法,使用 double doubly-robust estimator 实现对所有上下文的独立性考虑,并在概率保证条件下证明了广义线性模型赌博机的后悔上限。