通过分析均值绝对偏差误差和分层主成分回归,我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。
Apr, 2024
本文对具有预算和时间限制的约束情境赌博问题展开了研究,提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。
Apr, 2015
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题,提出了基于上界置信度算法的解法,并得到了近似最优的遗憾上界;进一步,我们研究了该模型的极大似然估计量的置信度界,为实际应用提供了理论指导。
Mar, 2021
本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法,以解决在非静态环境下的上下文在线学习和塞德利反馈问题,这些结果表明这些算法在一般的情境序列下,并且存在突然变化时具有高概率的上限置信度边界,证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。
Mar, 2020
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019
提出了一种新颖的上下文强化学习算法,使用 double doubly-robust estimator 实现对所有上下文的独立性考虑,并在概率保证条件下证明了广义线性模型赌博机的后悔上限。
Sep, 2022
本文研究线性上下文赌博机,特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界,其与以前的下界相匹配。
May, 2019
我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型:具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型,我们建立了本质上紧密的遗憾上界。值得注意的是,在我们获得的上界中,我们成功消除了关键参数 kappa 的依赖性,该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB,使用 Ω(log (log T)) 批次,遗憾的规模为 Φ(O (√T)). 此外,我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次,并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。
研究了有限动作集的线性上下文强化学习问题,介绍了一种名为 VCL SupLinUCB 的算法,并表明其与最佳下界相匹配,相较于之前的算法分析,节省了两个对数因子。
Mar, 2019