本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
本文研究线性情境赌徒算法问题,重新审视贪心算法的性能,通过平滑分析证明,即使情境可以由对手选择,对对手选择进行小干扰就足以实现 “无悔算法”,这表明在线性设置中,“普遍地”(即在稍微扰动的环境中)探索和开发不必在冲突。
Jan, 2018
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
证明了当观察到的上下文具有足够的随机性时,贪心算法可以达到速率最优,并介绍了一种新的算法 Greedy-First,该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略,同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质,并大量模拟结果表明,Greedy-First 成功地减少了探索并优于现有的基于 Exploration 的上下文 bandit 算法,如 Thompson sampling 或 upper confidence bound(UCB)。
Apr, 2017
提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法,其不仅可以抵御回报攻击,还可以抵御袭击环境,提高了对各种流行攻击的稳健性。
Jun, 2021
本文对具有预算和时间限制的约束情境赌博问题展开了研究,提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。
Apr, 2015
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
本文主要研究机遇上下文奖励问题,提出了自适应上界置信区间算法(AdaLinUCB),并实现了 O((log T )^ 2)的问题相关遗憾上界证明。
Feb, 2019
本文探讨了在线学习环境下,通过使用赌博机算法来自动确定探索参数,优化上下文赌博算法探索与利用的平衡问题。
May, 2020
本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究,发现在批次学习模型中只需要 O(log log T)批次进行学习,但在策略转换限制下需 O(dlogdlogT)次策略转换才能达到最优遗憾。
Jul, 2020