Dec, 2023

强制性探索在赌博问题中的应用

TL;DR设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。