Nov, 2020

渐进最优信息导向采样

TL;DR介绍了一种基于信息导向采样(IDS)框架的简单高效的针对动作数有限的随机线性赌博机问题的算法,在有限时间内渐近最优,并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡,并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明,IDS 在有限时间内与 UCB 竞争力强,在渐近阶段更优。