cumulative regret performance | BriefGPT

关键词cumulative regret performance

搜索结果 - 1

序列多臂赌博机中的奖励样本传输
在该研究中，我们考虑了一个顺序随机多臂赌博问题，在多个回合中，代理与赌博机进行交互。臂的奖励分布在一个回合中保持不变，但在不同回合中可能发生变化。我们提出了一种基于 UCB 算法的方法，用于传输来自先前回合的奖励样本，并改善所有回合中的累积
PDF4 months ago