Feb, 2020
针对对抗性线性情境赌博机的高效稳健算法
Efficient and Robust Algorithms for Adversarial Linear Contextual Bandits
Gergely Neu, Julia Olkhovskaya
TL;DR针对经典 $K$-armed 线性上下文对抗性问题,我们开发了基于 Exp3 算法的计算有效算法,其中包含实时算法和鲁棒算法,它们能够实现良好的失望保证,并且对于线性奖励函数而言具有稳健性。
Abstract
We consider an adversarial variant of the classic $K$-armed linear contextual
bandit problem where the sequence of loss functions associated with each arm
are allowed to change without restriction over time. Under the assumption that
the $d$-dimensional contexts are generated i.i.d.~at random from a known
distributions, we develop →
发现论文,激发创造
绕过模拟器:近似最优的对抗线性情境赌博机
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023
对抗性线性情境赌博机的一阶和二阶边界
考虑对抗性线性上下文赌博机设置,文中给出了一种新的算法,通过利用与不需要上下文设置的线性赌博机的新联系,利用连续指数权重算法在概率单形上的一个截断版本来获得结果,并证明了其结果优于最坏情况下的后悔,特别的当环境相对温和时,考虑了上下文的密度是对数凹的情况,给出了一种同时优于二阶和一阶损失的方法。
May, 2023
广义线性情境赌博机的可证明最优算法
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
对抗语境强化学习的核化方法
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
Oct, 2023
双重稳健套索赌博机
提出了一种新的算法:Doubly-Robust Lasso Bandit algorithm,它利用线性回归参数的稀疏结构,融合在缺失数据文献中使用的双重稳健技术,解决了高维稀疏环境下多臂赌博机算法的问题,大大减少了调参数量和算法复杂度。
Jul, 2019
线性上下文臂优化中的自适应探索
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019