关键词multi-armed bandit problems
搜索结果 - 15
- 用于赌博游戏的近似信息最大化
基于熵最大化和自由能最小化的原理,提出一种新类的 Bandit 算法,通过最大化系统内关键变量的信息量近似来选择行动,该方法在经典 Bandit 设置中表现出较强的性能,并在高斯奖励的二臂 Bandit 问题上证明了渐近最优性,为进一步研究 - 高效勘探 - 开发策略的近似信息
本文提出了一种新方法,“近似信息最大化(AIM)”,通过使用熵梯度的解析逼近来选择每个时刻要拉哪个臂,从而解决了决策中固有的勘探 - 利用困境,实现了与 Infomax 和 Thompson 抽样相当的性能,同时提高了计算速度,确定性和易处 - ICML嵌套赌博机
提出了一种嵌套指数权重(NEW)算法,该算法基于一种嵌套的、逐步选择的方法对学习者的选择集进行层次探索,旨在有效解决在线学习问题中存在高度相似性的备选方案,实现遗憾最小化。
- MOTS:极小极大化优化的汤普森采样
本文提出了一种名为 MOTS 的变体,它能够自适应地削减每个时间步骤中所选臂的采样实例,并证明了这种变体算法能够实现多臂赌博问题的最小化最优表现。
- 鉴别好臂之真实样本复杂性
提出多臂老虎机算法中两个问题:如何识别平均值与最大平均值相差小于给定阈值的武器和如何识别平均值大于给定阈值的 k 支武器。在此基础上,给出了形式化的定义,匹配了样本复杂度的下界,并提供了几乎匹配上界的具体实用算法。
- 针对具有无限奖励的多臂赌博机的分布式无感知、风险感知算法
本文研究一个选择 arm 的问题,它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化,同时提出了一类可证明上限的算法,并比较其在非 oblivious 算法中的误差边界与实际表现(数字化实验)的竞争性。
- 无图形图形赌博机 Thompson 抽样的分析
本篇论文研究了带有图反馈的多臂赌博问题,其中可以观察所选行动的相邻行动,在图可能随时间变化且不向决策者完全显露的情况下。该文提出了一种算法, 并证明了在无向图情况下它达到了最优(在对数因子内)失误收敛速率。同时,论文还提出了在有向图情况下该 - 风险规避的均值方差多臂赌博机问题
本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量,并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现,且模型特定和模型无关的遗憾都有下界。
- 探索先行,利用随后:强盗问题中后悔的真实形状
本文研究多臂老虎机问题的遗憾下界,并利用 Kullback-Leibler 分歧的已知特性证明了非相对论、分布依赖的限制。这些限制特别表明,在初始阶段遗憾几乎线性增长,并且在最后阶段仅出现知名的对数增长。证明技术突出了信息理论论证的本质,并 - 多臂老虎机模型在临床试验最优设计中的应用:优势与挑战
本研究使用多臂赌博问题 (Multi-armed bandit problems, MABPs) 来探索在临床试验中优化设计和资源分配的理论,比较不同的分配规则,提出一种新的患者分配规则以克服低统计功效的问题,并为临床试验的实际设计和分析提 - NIPS一伙强盗
本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题,该算法对每个网络节点(用户)分配了一个 Bandit 算法,并允许其与相邻节点共享信息,与传统 Contextual Bandit 方法相比,实验结果表明该算法在预测 - 进一步优化 Thompson Sampling 算法的后悔上界
使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著,本文提供了一种新的悔恨分析方法,同时证明了该算法在期望后悔上的问题特定界限和问题独立界限,方法简单且可适用于更广泛的 contestual bandit - 探索 / 开发策略的元学习:多臂赌博机案例
本研究提出了一种基于元学习方法的新的解决方案,可以在一个特定的 E/E 问题类别上利用先前的知识,从而找到一个平均表现最佳的候选 E/E 策略。此方法在两种不同的假设空间中都取得较好的实验结果和鲁棒性评估。
- 随机和非随机多臂赌博机问题的遗憾分析
本调查报告主要关注于多臂赌博问题中两个极端情况的分析,即独立同分布回报和对抗性回报,并对有限行为、情境赌博模型等进行了分析。
- 非平稳赌博机问题的置信上限策略
本文考虑了分布保持不变,但在未知时间发生改变的非稳态赌徒问题,研究了两种算法:折扣上限置信区间和滑动窗口上限置信区间,并通过 Hoeffding 不等式得到了后者的上界,对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的