AAAIMar, 2021

多项式 Logit 上下文强化学习:可证优化与实用性

TL;DR本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题,提出了基于上界置信度算法的解法,并得到了近似最优的遗憾上界;进一步,我们研究了该模型的极大似然估计量的置信度界,为实际应用提供了理论指导。