BriefGPT.xyz
Ask
alpha
关键词
adaptive sliding window
搜索结果 - 1
超过最坏情况的无限多臂武装匪徒的腐烂问题:自适应方法
在本研究中,我们考虑了在腐败环境中的无限多臂赌博问题,其中每个臂的平均奖励可能会在每次拉动后减少,而其他情况下保持不变。我们探讨了两种场景,捕捉到关于奖励衰减的问题相关特征:一个情景中腐败的累积量受到 $V_T$ 的限制,称为缓慢衰败的场景
→
PDF
2 months ago
Prev
Next