赌博机中渐进式保守探索的算法改进

Feb, 2020

赌博机中渐进式保守探索的算法改进

Improved Algorithms for Conservative Exploration in Bandits

Evrard Garcelon, Mohammad Ghavamzadeh, Alessandro Lazaric, Matteo Pirotta

TL;DR本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案，并在多个合成和真实世界的问题中超越了现有的保守乐队算法。

Abstract

In many fields such as digital marketing, healthcare, finance, and robotics, it is common to have a well-tested and reliable baseline policy running in production (e.g., a recommender system). Nonetheless, the baseline policy is often suboptimal. In this case, it is desirable to deploy online learning algorithms (e.g., a →

online learning algorithms multi-armed bandit algorithm conservative learning problem contextual linear bandit setting conservative constrained linucb

发现论文，激发创造

保守上下文线性赌博机

研究在基于上下文的线性多臂赌博机问题中的安全问题，提出了 Conservative Linear UCB (CLUCB) 算法，保证了安全性的同时，最小化了它的遗憾，并将其维持在一个固定的性能百分比之上。

Nov, 2016

安全约束下的线性随机赌博机

本文提出了一种基于 UCB 策略的新算法 Safe-LUCB，用于解决多臂赌博问题中考虑安全限制的约束，该算法具有探索和利用两个阶段，并控制遗憾值增长，提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。

Aug, 2019

具有对数或次线性遗憾的约束上下文臂机算法

本文对具有预算和时间限制的约束情境赌博问题展开了研究，提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。

Apr, 2015

AdaLinUCB: 基于上下文的赌博机的机会学习

本文主要研究机遇上下文奖励问题，提出了自适应上界置信区间算法（AdaLinUCB），并实现了 O（（log T ）^ 2）的问题相关遗憾上界证明。

Feb, 2019

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

对话式上下文强化学习算法及其应用

将上下文策略（Contextual bandit）算法推广到对话情境的策略推荐 (Conversational contextual bandit)，通过针对关键术语（key-terms）的交流反馈来加速策略学习，设计 Conversational UCB 算法来处理此类情境，理论分析 ConUCB 可以达到比传统策略策略 LinUCB 更小的遗憾上界，实验结果表明了该算法的有效性。

Jun, 2019

随机线性赌博机中的近似推断贝叶斯赌博算法

提出了一个通用的理论框架来分析具体推断存在时的随机线性赌博带中的贝叶斯赌博算法，得到了 Linear Thompson Sampling 和 Linear Bayesian Upper Confidence Bound 在近似推断时保持原有遗憾上界但需要更大的常数项的结论，引入一种新的定义来展示 Linear Bayesian Upper Confidence Bound 改进了 Linear Thompson Sampling 的遗憾速率，从而与极小的理论最优速率相匹配，这是首次在具有有界近似推断误差的随机线性赌博带设置中给出的遗憾界。

Jun, 2024

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

自举式上置信域界限算法

本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法，并进一步将二阶校正融入该算法，在理论上，我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界，数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔

Jun, 2019

离线赌博机中基于贝叶斯遗憾最小化的凸松弛方法

本文提出了一种利用高效对偶锥优化器，直接最小化贝叶斯遗憾的上界以及与 VaR 和机遇约束优化之间的关系建立的边界的新方法来优化不确定环境下离线数据的决策问题，并与现有算法进行了比较。

Jun, 2023