研究了混合离线数据和在线理学习范例,以在具有关联线下数据的情况下识别具有最高平均值的臂,其置信度为 1-delta 的随机 K 武器窘境问题,并设计了一个能够匹配最低样本复杂性下界的算法。
Jun, 2023
在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学习几乎最优的决策策略。同时,我们进行了上下文和非上下文赌博机环境下的遗憾分析,并展示了先前的因果边界可以帮助持续减少渐近遗憾。
Dec, 2023
本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法,并进一步将二阶校正融入该算法,在理论上,我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界,数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔
Jun, 2019
本文考虑了分布保持不变,但在未知时间发生改变的非稳态赌徒问题,研究了两种算法:折扣上限置信区间和滑动窗口上限置信区间,并通过 Hoeffding 不等式得到了后者的上界,对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界,证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
May, 2008
本文提出了一种成本感知的级联赌博模型,研究其应用在在线和离线环境下的表现,并介绍了一种新的成本感知级联上置信区间算法以解决在线环境下的问题。
May, 2018
在只有每个臂的单个样本的数据匮乏情况下,本研究展示了即使在这种情况下也可能找到与最优策略相竞争的策略,这为基于仅有少量样本进行可靠决策的场景开辟了道路。我们的分析揭示了离线决策中,随机策略可能比确定性策略显著优越。针对离线多臂赌博机,我们设计了一种名为 TRUST 的算法,它与主导的基于值的下界方法截然不同,其设计得益于定位法则、关键半径和相对悲观主义。我们证明了其样本复杂度与 LCB 在极小化极大问题上可比,而在样本极少问题上明显较低。最后,我们考虑了一个在已知记录策略的特殊情况下的离线强化学习应用。
Feb, 2024
本论文研究了一种称为图赌博机的多臂赌博机扩展问题,提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB,并证明其能够达到理论最优的遗憾界,数值实验结果表明该算法优于其他基准算法。
Sep, 2022
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020
通过在线学习的方法,本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统,以提高新内容发现和物品探索的能力。
Jul, 2023