finite-time regret bound | BriefGPT

关键词finite-time regret bound

搜索结果 - 1

K 臂对决赌徒问题的相关上限置信界
本文介绍了一种新的解决 K-armed dueling bandit 问题的方法，其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O（log t）。经实验结果证实，与现有技术相比，该方法在信息检索中
PDF11 years ago