赌博机中渐进式保守探索的算法改进
研究在基于上下文的线性多臂赌博机问题中的安全问题,提出了 Conservative Linear UCB (CLUCB) 算法,保证了安全性的同时,最小化了它的遗憾,并将其维持在一个固定的性能百分比之上。
Nov, 2016
本文提出了一种基于 UCB 策略的新算法 Safe-LUCB,用于解决多臂赌博问题中考虑安全限制的约束,该算法具有探索和利用两个阶段,并控制遗憾值增长,提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。
Aug, 2019
本文主要研究机遇上下文奖励问题,提出了自适应上界置信区间算法(AdaLinUCB),并实现了 O((log T )^ 2)的问题相关遗憾上界证明。
Feb, 2019
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
将上下文策略(Contextual bandit)算法推广到对话情境的策略推荐 (Conversational contextual bandit),通过针对关键术语(key-terms)的交流反馈来加速策略学习,设计 Conversational UCB 算法来处理此类情境,理论分析 ConUCB 可以达到比传统策略策略 LinUCB 更小的遗憾上界,实验结果表明了该算法的有效性。
Jun, 2019
提出了一个通用的理论框架来分析具体推断存在时的随机线性赌博带中的贝叶斯赌博算法,得到了 Linear Thompson Sampling 和 Linear Bayesian Upper Confidence Bound 在近似推断时保持原有遗憾上界但需要更大的常数项的结论,引入一种新的定义来展示 Linear Bayesian Upper Confidence Bound 改进了 Linear Thompson Sampling 的遗憾速率,从而与极小的理论最优速率相匹配,这是首次在具有有界近似推断误差的随机线性赌博带设置中给出的遗憾界。
Jun, 2024
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019
本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法,并进一步将二阶校正融入该算法,在理论上,我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界,数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔
Jun, 2019
本文提出了一种利用高效对偶锥优化器,直接最小化贝叶斯遗憾的上界以及与 VaR 和机遇约束优化之间的关系建立的边界的新方法来优化不确定环境下离线数据的决策问题,并与现有算法进行了比较。
Jun, 2023