BISTRO: 一种用于上下文感知推荐的高效基于松弛的方法

Feb, 2016

BISTRO: 一种用于上下文感知推荐的高效基于松弛的方法

BISTRO: An Efficient Relaxation-Based Method for Contextual Bandits

Alexander Rakhlin, Karthik Sridharan

TL;DR通过对环境上下文信息进行考虑，使用无标签数据使得策略选择问题具有可计算性，并基于广义乘法逼近算法构建的算法解决求解难度超过多项式时间的EMR问题，同时解决了有关环境敌意、全信息监督在线学习问题的学习难点。

Abstract

We present efficient algorithms for the problem of contextual bandits with i.i.d. covariates, an arbitrary sequence of rewards, and an arbitrary class of policies. Our algorithm BISTRO requires d calls to the empirical

发现论文，激发创造

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

对抗环境学习的高效算法

该论文提出了用于对抗环境下上下文相关强化学习问题的第一种Oracle有效的亚线性后悔算法，分析了两个场景，其中一个是传递式场景，另一个是小分离器设置

Feb, 2016

非平稳环境下高效应对背景干扰的Bandit算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

超越ucb: 具有回归预测器的最优和高效上下文臂算法

本文提出了一种将上下文强化学习转化为在线回归问题的算法；该算法可以在泛型函数类上实现最小化风险，并且与以前的结果相比，它不需要任何分布假设，即使在敌对性上下文的情况下也可以工作。

Feb, 2020

绕开怪物：一种更快、更简单的实现环境下上下文二项式算法

该论文考虑了具有普适性假设的（随机性）上下文赌博问题，设计了一种快速、简单的算法，在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化，解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明，离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。

Mar, 2020

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

上下文多臂老虎机的离线策略优化：高效的谨慎性

本文介绍了一种称为`pessimistic policy optimization`的算法，用于处理contextual bandits中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Jun, 2023

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

一种改进的用于Oracle-Efficient Adversarial Contextual Bandits的松弛方法

我们提出了一种对抗情境下上下文弛豫的方法，其中上下文是从已知分布中顺序独立抽取的，并且成本序列由在线对手选择。我们的算法在每一轮最多对离线优化预言机进行O(K)次调用，有一个遗憾界限为O(T^（2/3）(Klog(|Pi|))^（1/3）)，这是首次改进了Syrgkanis等人在2016年NeurIPS会议上获得的 O((TK)^（2/3）(log(|Pi|))^（1/3）) 最佳界限，也是第一次与Langford和Zhang在2007年NeurIPS会议上为随机情况获得的原始界限相匹配。

Oct, 2023