提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法,通过引入回放阶段来保持对非平稳的探索,并在探索和开发之间保持良好的平衡。
Feb, 2019
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
本文研究了非平稳线性臂问题,提出了一种基于重启策略的算法以平衡利用和探索,并证明了该算法的动态遗憾值,同时还解决了现有算法中的严重技术缺陷问题。
Mar, 2021
介绍了一种新的非平稳线性随机赌博算法,应用于动态定价和广告分配领域,并使用滑动窗口 UCB 算法实现了最优动态后悔上界。
Oct, 2018
本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。
May, 2018
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
介绍针对非静态赌博机环境的最新数据驱动决策算法,采用了随机和对手式学习算法的非传统结合方法,通过滑动窗口 - 置信界算法,针对各种非静态赌博机问题实现了最优动态遗憾边界,并通过数字实验验证了算法的超越性能。
Mar, 2019
本文研究应用于在线决策中的两臂赌博机问题,其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离,提出了一种策略以 T^(3/5)遗憾为代价。同时,我们为任何整数 β≥1 证明了一个 T^(β+1)/2β+1 的下限,与 β=2 的上限相匹配。
Jan, 2023
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性动态遗憾;其次,对于强凸和光滑函数,我们提出的算法达到了最小极大动态遗憾速率的最优值,仅相差对数因子。
Jun, 2024