BriefGPT.xyz
Ask
alpha
关键词
cumulative regret performance
搜索结果 - 1
序列多臂赌博机中的奖励样本传输
在该研究中,我们考虑了一个顺序随机多臂赌博问题,在多个回合中,代理与赌博机进行交互。臂的奖励分布在一个回合中保持不变,但在不同回合中可能发生变化。我们提出了一种基于 UCB 算法的方法,用于传输来自先前回合的奖励样本,并改善所有回合中的累积
→
PDF
4 months ago
Prev
Next