线性函数逼近离线强化学习的统计限制是什么？

Oct, 2020

线性函数逼近离线强化学习的统计限制是什么？

What are the Statistical Limits of Offline RL with Linear Function Approximation?

Ruosong Wang, Dean P. Foster, Sham M. Kakade

TL;DR本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Abstract

offline reinforcement learning seeks to utilize offline (observational) data to guide the learning of (causal) sequential decision making strategies. The hope is that →

offline reinforcement learning sequential decision making function approximation sample complexity distributional conditions

发现论文，激发创造

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法，以实现一般函数逼近和单策略可集中性的统计最优性，无需不确定性量化，并且通过应用增广 Lagrange 方法，保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同，本文方法证明消除了这种需求，并将规则化器重新解释为 “占用有效性的执行者”，而不是 “保守性的促进者”。

Nov, 2022

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

通过可微函数逼近离线强化学习的有效性能得到保证

使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用，它结合了各种具有非线性和非凸结构的模型，能够显著提高算法性能；本文分析了一种最悲观的算法，并证明这种方法的有效性，为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。

Oct, 2022

使用线性函数逼近的无限时域离线强化学习：维度诅咒与算法

本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法，提出了算法的样本复杂性的下界，以及样本复杂性的上界。

Mar, 2021

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和 O（1 / K）的较低界限。

Nov, 2022

使用预训练神经表示的离线强化学习的不稳定性

本研究从实证的角度研究了离线强化学习的稳定性，尝试使用来自预训练神经网络的特征进行样本高效的离线强化学习，结果表明即使使用这种预训练表示，仍然存在显著的误差扩大，离线强化学习仅在极小的分布偏移范围内是稳定的。这些结果表明，成功的离线强化学习需要更强的条件，这些条件超出了成功监督学习所需的条件。

Mar, 2021

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022