BriefGPT.xyz
Ask
alpha
关键词
finite-time regret bound
搜索结果 - 1
K 臂对决赌徒问题的相关上限置信界
本文介绍了一种新的解决 K-armed dueling bandit 问题的方法,其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中
→
PDF
11 years ago
Prev
Next