稀疏线性函数逼近的误差界约束下的误设 $Q$-学习

Jul, 2024

稀疏线性函数逼近的误差界约束下的误设 $Q$-学习

Misspecified $Q$-Learning with Sparse Linear Function Approximation: Tight Bounds on Approximation Error

Ally Yalei Du, Lin F. Yang, Ruosong Wang

TL;DR给定稀疏线性赌博机，即使在错误规定和稀疏度为常数的情况下，也可以使用多项式数量的样本获得O(ε)最优策略，这与没有稀疏度的错误规定线性赌博机需要指数数量的样本产生相同的保证形成鲜明对比。

Abstract

The recent work by Dong & Yang (2023) showed for misspecified sparse linear bandits, one can obtain an $O\left(\epsilon\right)$-optimal policy using a polynomial number of samples when the sparsity is a constant, where $\epsilon$ is the →

发现论文，激发创造

线性赌博机误设

本研究考虑了线性多臂老虎机问题中的在线学习问题，并提出了一种新的算法，该算法包括一个线性假设检验和OFUL或UCB算法的决策。该算法在完全线性情况下表现出OFUL的良好遗憾性能，在存在不稀疏偏差性质的错误规范模型上避免了线性遗憾现象，并且在综合数据实验中得到了一致的支持。

Apr, 2017

确定性系统中基于函数逼近的无神论Q学习：逼近误差和样本复杂度的严格界限

研究了确定性系统中基于函数逼近的agnostic Q-learning问题，并提出了一种新颖的递归算法，证明了采用该算法可以找到最优策略，同时满足多项约束条件。

Feb, 2020

使用线性函数逼近的无限时域离线强化学习：维度诅咒与算法

本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法，提出了算法的样本复杂性的下界，以及样本复杂性的上界。

Mar, 2021

上下文回馈中的误差适应

在这篇论文中，我们介绍了一种新的Oracle-efficient算法，适用于无限行动设置下的线性情境强化学习问题，该算法实现了最优的拟合程度依赖性回归（square loss regression）的后悔上限，使得它能够在未知的模型错误情况下灵活适应。

Jul, 2021

误设的高斯过程贝叶斯优化

本文提出了两种基于高斯过程（GP）方法的算法：一种乐观的EC-GP-UCB算法，另一种是一种消除型算法Phased GP Uncertainty Sampling。本文给出了算法的上界，其依赖于时间长度和核心参数，证明了我们的算法在不知道错误情况下实现了对ε的最优依赖性，并证明了EC-GP-UCB可以与后悔边界平衡策略相结合。

Nov, 2021

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射phi(s,a)的线性函数。提出了新的计算高效算法LSVI-UCB+，其在Bernstein类型的探索奖励的帮助下，具有常数估计的L2误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了LSVI-UCB+的统计结果并且在理论上是最优秀的。

Jun, 2022

稀疏性对于学习未正确规定的线性臂上的影响

研究了线性错误赌博机的问题，并探讨了稀疏性在错误赌博机学习中的作用和限度，提出了一种新的算法，并且证明了该算法的样本复杂度近似最优。

Mar, 2023

局部有界的规格误差下最小二乘值迭代具有鲁棒性

本文研究了价值迭代的鲁棒性，提出了一种名为Least-Square-Value-Iteration的算法，并证明其中的探索奖励能够在局部误差边界下达到鲁棒性。

Jun, 2023

错误配置条件下的最优近似因子在离策略价值函数估计中

线性离策略值函数估计中的近似因子的优化形式尚不明确，本研究通过研究加权L2范数、L∞范数、有无状态别名和状态空间完全性等设置，在所有这些设置上确定了渐近最优的近似因子（除了常数因子），特别是我们的界限确定了L2（μ）范数的两个实例相关因子和L∞范数的一个实例相关因子，从而推断出了在错误规定下离策略评估难度的因素。

Jul, 2023

强健性多臂赌博机算法对错误假设的鲁棒性研究

对于参数化赌博机和上下文赌博机，我们确定了一些充分条件，取决于问题实例和模型类别，在这些条件下，经典算法（如ϵ-greedy和LinUCB）在甚至严重错误的奖励设定下，也能够在时间范围内实现亚线性（sublinear）的后悔保证，这与现有针对错误设定赌博机的最坏情况结果形成对比，后者显示的后悔界限与时间成线性关系，这表明存在一组对错误设定具有鲁棒性的赌博机实例。

Oct, 2023