离线神经情境臂: 悲观、优化和泛化

Nov, 2021

离线神经情境臂: 悲观、优化和泛化

Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization

Thanh Nguyen-Tang, Sunil Gupta, A. Tuan Nguyen, Svetha Venkatesh

TL;DR本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略，提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法，应用随机梯度下降进行在线学习提高计算效率，并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度，同时在一系列的合成和实际问题中表现出了很好的效果。

Abstract

offline policy learning (OPL) leverages existing data collected a priori for policy optimization without any active exploration. Despite the prevalence and recent interest in this problem, its theoretical and algorithmic foundations in function approximation settings remain under-devel

发现论文，激发创造

基于上下文的赌博机中最优的自适应离线评估

本研究旨在研究在没有相应奖励模型的情况下，通过使用由另一政策收集的数据来估算目标政策的价值的，上下文Bandit模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的（不一定一致的）奖励模型来实现更好的偏差-方差平衡，从而在多个数据集上实现更好的表现。

Dec, 2016

超越ucb: 具有回归预测器的最优和高效上下文臂算法

本文提出了一种将上下文强化学习转化为在线回归问题的算法；该算法可以在泛型函数类上实现最小化风险，并且与以前的结果相比，它不需要任何分布假设，即使在敌对性上下文的情况下也可以工作。

Feb, 2020

绕开怪物：一种更快、更简单的实现环境下上下文二项式算法

该论文考虑了具有普适性假设的（随机性）上下文赌博问题，设计了一种快速、简单的算法，在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化，解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明，离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。

Mar, 2020

提高离线情境感知强化学习的分布鲁棒性

本文扩展了分布鲁棒优化方法，提出了 Counterfactual Risk Minimization 原则的凸重构方法，介绍了通过 DRO 框架构建离线情境强化学习的渐近置信区间，使用了已知的鲁棒估计渐进性结果自动校准置信区间，并呈现了初步实验结果支持我们方法的有效性。

Nov, 2020

通过离线神谕在具有多个类别的情境下选择最优模型的方法

本研究提出了一种新的算法，用于解决上下文Bandit问题中的模型选择问题，该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换，并具有与回归模型选择相同的计算要求。

Jun, 2021

离线强化学习中的选择性不确定性传播

研究了有限时间内的离线强化学习问题，提出了一种基于动作影响估计的算法，可在统计上简单实例上胜过传统的悲观方法。

Feb, 2023

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为CAP的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Mar, 2023

上下文多臂老虎机的离线策略优化：高效的谨慎性

本文介绍了一种称为`pessimistic policy optimization`的算法，用于处理contextual bandits中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Jun, 2023

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

重要性加权的线下学习方法

离线策略优化, 随机情境赌博问题，重要性加权估计，隐性探索估计，PAC-Bayesian 策略类的改进

Sep, 2023