Jul, 2023

线性赌博机中的即时模型选择

TL;DR在线学习在模型选择时可以通过对线性赌博机进行全信息反馈来改进性能,从而在M个模型中具有对数级的依赖性,而不需要先验知识或纯探索阶段。