Feb, 2021
在随机和对抗线性赌博机中同时实现近似实例最优性和极小化最优性
Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic
and Adversarial Linear Bandits Simultaneously
TL;DR本文将开发线性试探算法来适应不同的环境,并提出一种新的损失估计方法,该算法在随机环境中实现了几乎实时最优遗憾,还在带有额外遗憾的破损环境中工作,并装备有对抗性组件,同时拥有最小化遗憾的敌对环境优势。