Mar, 2023

非平稳环境下的 MNL-Bandit

TL;DR本文研究在非稳态环境下的 MNL-Bandit 问题,提出一种算法,其最坏动态遗憾为 $\tilde {O}(\min \left\{ \sqrt {NTL}\;;\; N^{\frac {1}{3}}(\Delta_{\infty}^{K})^{\frac {1}{3}} T^{\frac {2}{3}} + \sqrt {NT}\right\} )$,并基于 2016 年 Agrawal 等人提出的周期算法,引入了新的技术和思想来解决非稳态问题中的挑战,特别是针对非稳态引入的偏差,得出了紧密的表征以及新的浓度界限。