关于局部隐私线性情境赌博机的最佳后悔
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
考虑对抗性线性上下文赌博机设置,文中给出了一种新的算法,通过利用与不需要上下文设置的线性赌博机的新联系,利用连续指数权重算法在概率单形上的一个截断版本来获得结果,并证明了其结果优于最坏情况下的后悔,特别的当环境相对温和时,考虑了上下文的密度是对数凹的情况,给出了一种同时优于二阶和一阶损失的方法。
May, 2023
我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型:具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型,我们建立了本质上紧密的遗憾上界。值得注意的是,在我们获得的上界中,我们成功消除了关键参数 kappa 的依赖性,该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB,使用 Ω(log (log T)) 批次,遗憾的规模为 Φ(O (√T)). 此外,我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次,并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。
Apr, 2024
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023
研究了有限动作集的线性上下文强化学习问题,介绍了一种名为 VCL SupLinUCB 的算法,并表明其与最佳下界相匹配,相较于之前的算法分析,节省了两个对数因子。
Mar, 2019
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016