关键词upper confidence bounds
搜索结果 - 7
- 基于数据驱动的上界置信度在重尾赌博机上的近优遗憾
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
- 潜在赌徒问题的再探讨
本文提出了一种解决 “潜在赌徒问题” 的算法,该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布,其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样,并在模型不确定性和规格不准确时具有上下文感知能力。理论分析 - 多臂赌博机问题:一种有效的非参数解决方案
该研究提出了高效的非参数性多臂赌博机过程,旨在解决机器学习算法和数据分析中的应用问题,并分析了参数和非参数设置下的 UCB 过程的修改版本及非效率性。
- 带图反馈的随机赌博机的汤普森抽样
本研究介绍了一种新的 Thimpson Sampling 算法扩展,应用于带图反馈的随机顺序决策问题,甚至在图结构本身未知或者不断变化的情况下。通过对真实和模拟的具有图反馈的网络进行广泛的实验结果,可以说明该算法的性能优于使用上界置信度的相 - 无折扣连续强化学习的在线遗憾界
该研究针对连续状态空间中的无折扣强化学习问题,提出了一种结合状态聚合和使用置信上界实现面对不确定性乐观的算法,在 rewards 和 transition probabilities 保持 Holder 连续性的情况下,给出了子线性遗憾界。
- 利用随机赌博机的侧观察优化
本文提出一种考虑了副观测数据的随机赌博机模型,并基于上界置信度 (UCBs) 提供了高效的算法,用于在社交网络中推荐内容,实现了比传统算法更好的效果。
- 随机多臂赌博问题的遗憾下界和拓展上置信界策略
通过对经典多臂赌博机(Stochastic Multi-Armed Bandit)的研究,探讨了两种不同的准则下存在的遗憾下界。同时,研究了 UCB 等算法的变体,证明了这种情况下不可能设计一种自适应的策略来选择最优算法。