具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
本文研究随机延迟赌博机问题,提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits,通过针对延迟赋予限制的方法,得出不同类型问题的效果下限和上限。
Jun, 2020
本文对一类赌博机问题进行了研究,提出了一种新算法,结合非参数统计和传统赌博机算法方法,在最大化累积预期收益的目标下,取得了与理论下界相同的性能,同时具有良好的适应性。
Mar, 2010
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020
通过整合因果推断文献中的平衡方法,开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性,并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析
Nov, 2017
本篇论文研究以往文献未解决的问题,提出了一种新的基于 Thompson 采样的算法(被称为去混淆 Thompson 采样),该算法在易于稳定的情况下发挥优越效率,在困难的不稳定情况下也表现出出人意料的韧性,可在具有不稳定上下文影响的武器性能的智能探险算法中应用。
Feb, 2022
在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。
May, 2024