非平稳环境下的组合半赌博算法
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
本文研究在非稳态环境下的 MNL-Bandit 问题,提出一种算法,其最坏动态遗憾为 $\tilde {O}(\min \left\{ \sqrt {NTL}\;;\; N^{\frac {1}{3}}(\Delta_{\infty}^{K})^{\frac {1}{3}} T^{\frac {2}{3}} + \sqrt {NT}\right\} )$,并基于 2016 年 Agrawal 等人提出的周期算法,引入了新的技术和思想来解决非稳态问题中的挑战,特别是针对非稳态引入的偏差,得出了紧密的表征以及新的浓度界限。
Mar, 2023
本研究开发了多种高效的上下文推断算法,为非平稳环境提供了有效的解决方案,具有动态适应分布变化的能力,同时通过对各种标准回归进行分析,证明了在时间和空间成本上都能达到最优的效果。
Aug, 2017
本文研究应用于在线决策中的两臂赌博机问题,其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离,提出了一种策略以 T^(3/5)遗憾为代价。同时,我们为任何整数 β≥1 证明了一个 T^(β+1)/2β+1 的下限,与 β=2 的上限相匹配。
Jan, 2023
本研究探讨具有因果关系奖励的分段稳定组合半强盗问题,在我们的非稳态环境中,基本臂的分布变化,奖励之间的因果关系,或者二者同时改变了奖励生成过程。我们提出的算法在复杂环境中具备优越的应用性能。
Jul, 2023
开发出新的半强化学习算法,不需要先验信息,可同时在随机环境和对抗环境下获得对数级和平方级的遗憾,并通过在合成数据上的实验证明了其性能的一致性和优越性。
Jan, 2019