我们研究了具有图反馈的背景下的情景赌博问题,发现了相关概念与学习限制的关系,并提供了优化算法,以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。
Feb, 2024
提出一种算法来解决具有图反馈和一般函数空间的随机情境赌博问题,该算法适应底层图结构和奖励差距,为这种随机情境设定提供了一个依赖于差距的上界,改进了遗留问题,并通过数值实验验证了计算效率和 regret 上界的有效性,推动了具有图反馈的随机情境赌博领域的发展。
Aug, 2023
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
通过在线回归将参数图学习与无信息判定相结合,该研究开发了第一个可用于无信息设置的情境算法,并证明使用对数损失可以获得有利的后悔保证。
本研究提出了一种解决上下文相关性及跨上下文学习问题的算法,可在拍卖等有战略设置中实现更高性能的结果。
Sep, 2018
我们研究了一种因果背景下的情境式赌博问题,学习者基于由其选择的初始干预进行上下文选择。在每一轮开始时,学习者根据其选择的初始行动选择一个随机上下文并获得奖励。通过引入一个与实例相关的因果参数 λ 来实现上界,并且通过使用凸优化来解决赌博探索问题。我们的实验结果验证了我们的理论,并在项目的 GitHub 存储库上发布了我们的代码。
May, 2024
介绍了一个在上下文赌博问题中近似最优样本复杂度,并且是这个问题的 PAC 设置和在线设置中的最小化遗憾。
Jun, 2023
我们在上下文感知强化学习中研究了阶段限制的情况,并提出了一种上界置信区间算法来平衡探索和约束满足,同时证明了其遗憾界。
Jan, 2024
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020