利用离线回归预测器适应上下文 Bandit 中的错误规格化

ICMLFeb, 2021

利用离线回归预测器适应上下文 Bandit 中的错误规格化

Adapting to Misspecification in Contextual Bandits with Offline Regression Oracles

Sanath Kumar Krishnamurthy, Vitor Hadad, Susan Athey

TL;DR提出了一种简单的上下文 Bandit 算法族，该算法族可以通过当有证据表明错配错误导致遗憾增加时返回良好的安全策略来适应错配误差，而不需要像在线或约束回归神谕一样更健壮的神谕。

Abstract

Computationally efficient contextual bandits are often based on estimating a predictive model of rewards given contexts and arms using past data. However, when the reward model is not well-specified, the bandit a

contextual bandits misspecification reward model offline regression oracle regret guarantees

发现论文，激发创造

上下文回馈中的误差适应

在这篇论文中，我们介绍了一种新的 Oracle-efficient 算法，适用于无限行动设置下的线性情境强化学习问题，该算法实现了最优的拟合程度依赖性回归（square loss regression）的后悔上限，使得它能够在未知的模型错误情况下灵活适应。

Jul, 2021

通过离线神谕在具有多个类别的情境下选择最优模型的方法

本研究提出了一种新的算法，用于解决上下文 Bandit 问题中的模型选择问题，该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换，并具有与回归模型选择相同的计算要求。

Jun, 2021

超越 ucb: 具有回归预测器的最优和高效上下文臂算法

本文提出了一种将上下文强化学习转化为在线回归问题的算法；该算法可以在泛型函数类上实现最小化风险，并且与以前的结果相比，它不需要任何分布假设，即使在敌对性上下文的情况下也可以工作。

Feb, 2020

具备回归神谕的实用上下文强化学习

本研究提出了一种新的技术，将可实现性方法的经验和计算优势与不可知方法的灵活性相结合，借助回归预测器的可用性来进行算法优化，实现了任何分布假设下出色的表现。

Mar, 2018

绕开怪物：一种更快、更简单的实现环境下上下文二项式算法

该论文考虑了具有普适性假设的（随机性）上下文赌博问题，设计了一种快速、简单的算法，在所有 $T$ 回合中通过对离线回归神谕的 $logT$ 次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化，解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明，离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。

Mar, 2020

基于 oracle 的对抗性情境赌博算法的改进遗憾界

提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题，该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的，其中 K 是操作的数量，T 是迭代次数，N 是基线策略的数量。

Jun, 2016

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

上下文多臂老虎机的离线策略优化：高效的谨慎性

本文介绍了一种称为 `pessimistic policy optimization` 的算法，用于处理 contextual bandits 中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Jun, 2023

强健性多臂赌博机算法对错误假设的鲁棒性研究

对于参数化赌博机和上下文赌博机，我们确定了一些充分条件，取决于问题实例和模型类别，在这些条件下，经典算法（如 ϵ-greedy 和 LinUCB）在甚至严重错误的奖励设定下，也能够在时间范围内实现亚线性（sublinear）的后悔保证，这与现有针对错误设定赌博机的最坏情况结果形成对比，后者显示的后悔界限与时间成线性关系，这表明存在一组对错误设定具有鲁棒性的赌博机实例。

Oct, 2023

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018