- ICML未知游戏中的无遗憾学习的乐观汤普森抽样
我们开发了一种基于 Thompson 抽样的算法,利用关于对手行动和奖励结构的信息来应对部分信息和多机构的挑战。在交通路由和雷达感知等实际应用中,我们的方法显著减少了实验预算,与基准算法相比,实现了超过十倍的减少。此外,本研究还引入了乐观 - 基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生
基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配,具有较高的性能表现。
- AAAI基于赌博式大邻域搜索的自适应的任意时刻多智能体路径规划
使用基于多臂赌博机的双层方案进行在线学习,该方法能够在大规模情景下比目前最优的任意时刻多智能体路径规划方法提升至少 50% 的成本效益。
- AAAI稀疏超图上多智能体汤普森采样的有限时间频率后悔界
研究了多智能体多抽臂赌博机问题,针对联动臂的回报进行了探索,提出了一种高效的变体算法 epsilon-MATS,并证明了其在频率意义下的遗憾上界是次线性的,同时通过实验验证了其在相同情景下相比现有算法的卓越性能和改进的计算效率。
- 基于贝叶斯设置的组合高斯过程赌臂问题:理论与能效导航应用
研究探究了具有时间变化的臂可用性的组合高斯过程半 - 算法问题,提出了三种基于高斯过程的算法 (即 GP-UCB、Bayes-GP-UCB 和 GP-TS) 的贝叶斯遗憾界,对综合合成和实际路网进行了实验研究,并发现上下文高斯过程模型在先验 - 去偏机器学习和网络凝聚性用于上下文强化学习中的双重强健奖励模型
提出了一种利用 Thompson 抽样算法和双机器学习 (DML) 框架的 DML-TS-NNR 算法,通过最近邻方法在用户和时间维度上高效地汇集差异奖励信息,从而精确建模基线奖励,并对差异奖励参数提供了较小的置信区间,同时具备对基线奖励模 - 零膨胀计数结果的汤普森抽样方法及其在饮酒减量移动健康研究中的应用
通过将四种常见的离线计数数据模型(泊松、负二项、零膨胀泊松和零膨胀负二项回归)与汤普森抽样(Thompson sampling)结合起来,本研究提出了一种新的算法来改善 mHealth 系统用户参与度,并在真实数据和模拟数据上取得了好的结果 - 基于后验采样的贝叶斯优化与更紧的贝叶斯遗憾界限
该研究论文介绍了贝叶斯优化中的不同收集函数,探讨了高斯过程上置信界与 Thompson 采样方法的理论性能,并提出了一种称为来自样本路径最大值的改进概率的新的收集函数,它能够缓解实际应用中的问题。
- 改进的贝叶斯后悔边界在强化学习中的应用
本研究证明了在多种环境设置下,Thompson 采样在强化学习中的贝叶斯后悔限与性能上界,通过使用一组离散的替代环境简化学习问题,并使用后验一致性对信息比例进行了精细分析,从而导出了时间不均匀强化学习问题中的上界,其中 $H$ 是回合长度, - 高效纯探索的双向算法设计
在具有有限备选方案的随机顺序自适应实验中,我们考虑了纯探索问题。利用双变量,我们表征了最优分配的必要和充分条件,并提出了一个信息导向的选择规则。我们证明了,在某些条件下,与信息导向的选择相结合的前二 Thompson 抽样在高斯最优臂标识中 - 利用自适应赌博实验来提高和研究心理健康的参与度
数字心理健康(DMH)干预,如基于短消息的课程和活动,为心理健康支持提供巨大潜力。利用自适应实验和算法(如 Thompson Sampling)进行连续改进和个性化设计,以提高用户体验奖励并为社会行为科学家收集足够的统计数据分析,但对于不同 - 最优探索与汤普森抽样同等难度
该论文提出了一种利用采样和 argmax oracle 来实现指数收敛率的算法,以解决纯探索线性赌博问题,并证明了该算法在实践中与现有的渐近最优方法相当。
- 最佳挑战规则下的贝叶斯臂选择中的汤姆森探索
该论文研究了在集中置信度下的最佳臂识别问题,提出了一种结合汤普森采样和最佳挑战者规则的策略,在样本复杂度较低的情况下取得了近乎最优的性能。
- 使用分数后验信息的汤普森抽样泛化遗憾分析
Thompson sampling (TS) is a popular algorithm for solving multi-armed bandit problems; this paper introduces a variant c - VITS:上下文推测中的变分推断汤姆逊采样
该论文介绍和分析了一种上下文赌博问题的变体的汤普森采样(TS)算法,提出了一种基于高斯变分推理的新算法 VITS,并通过实验展示了其在合成和真实世界数据集上的有效性。
- ICMLThompson 采样在 GFlowNets 中的应用提高探索性能
本文提出了一种基于多臂赌博机思想的贝叶斯技术算法(TS-GFN),将训练过程中的轨迹选择视为主动学习问题,从学习策略的近似后验分布中采样轨迹来提高探索效率,进而比过去的离线探索策略更快地收敛至目标分布,在两个领域的实验中证明了其优越性。
- 可扩展的神经上下文 Bandit 算法用于推荐系统
提出一种面向推荐系统的可扩展的高效样本神经上下文强化学习算法,Epistemic Neural Recommendation (ENR), 具有比基线算法更高的点击率和用户评分,并且具有比最佳基线算法少 29% 的用户交互,同时计算资源需求 - 基于几何意义的线性赌博机算法平衡性能和理论保证
该论文提出了一种基于数据驱动技术的算法,利用不确定椭球的几何性质追踪算法的习得性能,在不同的问题实例上实现实例相关的频率遗憾边界,从而实现算法实例纠错,并在保留基础算法大部分优良性质的同时,达到最小化讽刺性遗憾代价。
- ICML带对数通信的 Langevin Thompson Sampling:赌博机和强化学习
本文提出了一种称为批量 Langevin Thompson Sampling 算法的方法,用于学习未知奖励分布和转移动力学,在批处理模式下,算法仅需要对数通信成本。 通过在随机多臂老虎机和无限时间域强化学习中应用此算法,保持与标准汤普森采样 - 计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。