线性参数赌博机的近似极小极大后悔
本文提出了一种名为LR-SCB的低后悔随机情境赌博算法,可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔,并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。
May, 2022
本文发展了一种数据稀疏(稀疏线性斯托剖斯)的新型算法,该算法使较小的环境维度下研究致命后果的风险得以降低,实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时,该研究还探讨了如何在一种<黑盒>化的方式下将任何方差算法转化为sparce linear bandits算法。
May, 2022
研究线性随机赌博机的噪声模型,介绍一种基于加权最小二乘估计的算法,能够最小化后悔度,通过几何论证独立于噪声模型,能够紧密控制每个时间步骤的期望后悔度为O(1/t),从而导致了累积后悔度的对数缩放。
Feb, 2024
我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型:具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型,我们建立了本质上紧密的遗憾上界。值得注意的是,在我们获得的上界中,我们成功消除了关键参数kappa的依赖性,该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法B-GLinCB,使用Ω(log(log T))批次,遗憾的规模为Φ(O(√T)).此外,我们建立了我们的罕见切换算法RS-GLinCB最多更新策略Φ(O(log^2 T))次,并实现了Φ(O(√T))的遗憾。我们消除广义线性情景赌博对kappa的依赖的方法可能具有独立的兴趣。
Apr, 2024
通过要求原始算法和对偶算法是弱自适应的,我们证明了在「背包带劫匪」框架中,能够保证子线性的对违规约束的罚值,并同时在随机和对抗的情况下提供最佳性能,并为具有线性约束的上下文劫匪问题提供了首个无α-遗憾的保证。
May, 2024
本论文研究了上下文多项式逻辑(MNL)弃权问题,其中学习代理根据上下文信息顺序选择一组,用户反馈遵循 MNL 选择模型。我们在特征维度 d 和最大组合大小 K 之间发现了显著的遗憾下界差异,并且这些边界之间奖励结构的变化使得追求最优性变得复杂。在统一奖励下,我们建立了一个遗憾下界 $Omega(dsqrt{T/K})$,并提出了一个常数时间算法 OFU-MNL+,该算法达到了上下界 $tilde{O}(dsqrt{T/K})$。在非统一奖励下,我们证明了一个下界 $Omega(dsqrt{T})$ 和上界 $tilde{O}(dsqrt{T})$,OFU-MNL+ 也可以实现这一界限。我们的实证研究支持这些理论结果。据我们所知,这是 MNL 上下文弃权文献中首次证明鞍点最优性和提出实现这一最优性的计算高效算法,达到联合因子标量对数。
May, 2024
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性动态遗憾;其次,对于强凸和光滑函数,我们提出的算法达到了最小极大动态遗憾速率的最优值,仅相差对数因子。
Jun, 2024