无限臂线性情境赌博机的紧束悔恨界
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
研究了有限动作集的线性上下文强化学习问题,介绍了一种名为 VCL SupLinUCB 的算法,并表明其与最佳下界相匹配,相较于之前的算法分析,节省了两个对数因子。
Mar, 2019
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
考虑对抗性线性上下文赌博机设置,文中给出了一种新的算法,通过利用与不需要上下文设置的线性赌博机的新联系,利用连续指数权重算法在概率单形上的一个截断版本来获得结果,并证明了其结果优于最坏情况下的后悔,特别的当环境相对温和时,考虑了上下文的密度是对数凹的情况,给出了一种同时优于二阶和一阶损失的方法。
May, 2023
本研究针对具有独立同分布 (i.i.d.) 上下文的线性情境赌博问题,提出一种基于 Follow-The-Regularized-Leader 和 Tsallis 熵的算法,被称为 α-Linear-Contextual (LC)-Tsallis-INF,以降低遗憾值并改进现有的算法。
Mar, 2024
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016
该论文研究了贝叶斯后悔和汤普森抽样算法在赌博问题中的变体。它建立在信息论框架的基础上,通过率失真分析提供了关于线性赌博问题的后悔率上界。使用链接论证,我们针对度量动作空间的赌博问题建立了新的界限。在奖励的适当连续性假设下,我们的界限为 d 维线性赌博问题提供了紧凑的速率。
Mar, 2024