BriefGPT.xyz
Ask
alpha
关键词
bandit game
搜索结果 - 2
具备调解者反馈的赌博机信息容量遗憾界限
这项研究针对中介反馈问题,提出了一个信息论度量,称为策略集能力,用于衡量策略集的复杂性。研究在对抗性和随机性环境中采用了经典的 EXP4 算法,提供了与策略集能力相关的新后悔上界,并且改进了相关的专家建议问题。此外,针对线性赌博反馈,我们还
→
PDF
5 months ago
置换多面体上的贪心在线优化
本文研究了一个基于凸多面体的赌博游戏,并提出了一种算法,它结合了 2013 年 Ailon 的最新算法和 2009 年 Cesa-Bianchi et al 的算法,以实现在线优化,总时间复杂度为 O(n^3T),其中 n 是顶点数和 T
→
PDF
11 years ago
Prev
Next