随机情境线性赌博机的实验设计
证明了当观察到的上下文具有足够的随机性时,贪心算法可以达到速率最优,并介绍了一种新的算法 Greedy-First,该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略,同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质,并大量模拟结果表明,Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法,如Thompson sampling或upper confidence bound(UCB)。
Apr, 2017
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
我们设计了一个算法,能够同时在简单多臂赌博机模式下获得问题相关的最优遗憾率和在线性上下文赌博机模式下获得极小化最优遗憾率,而不需要事先知道哪种模型产生了奖励。
May, 2019
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019
本文研究了上下文多样性对随机线性情境赌博机的影响,提出了LinUCB-d算法并分析其遗憾性能,理论结果表明,在多样性上下文的假设下,LinUCB-d的期望累积遗憾被一个常数限制,改善了以往对LinUCB的理解并加强了其性能保证。
Mar, 2020
本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究,发现在批次学习模型中只需要O(log log T)批次进行学习,但在策略转换限制下需O(dlogdlogT)次策略转换才能达到最优遗憾。
Jul, 2020
本文提出了一种名为LR-SCB的低后悔随机情境赌博算法,可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔,并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。
May, 2022
基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用,通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题,为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
Feb, 2024