通过可微函数逼近离线强化学习的有效性能得到保证

Oct, 2022

通过可微函数逼近离线强化学习的有效性能得到保证

Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient

Ming Yin, Mengdi Wang, Yu-Xiang Wang

TL;DR使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用，它结合了各种具有非线性和非凸结构的模型，能够显著提高算法性能；本文分析了一种最悲观的算法，并证明这种方法的有效性，为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。

Abstract

offline reinforcement learning, which aims at optimizing sequential decision-making strategies with historical data, has been extensively applied in real-life applications. State-Of-The-Art algorithms usually leverage powerful →

offline reinforcement learning differentiable function approximation sequential decision-making strategies function approximators fitted q-iteration

发现论文，激发创造

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

线性函数逼近离线强化学习的统计限制是什么？

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

线性函数逼近下的近似极小极大离线强化学习：单智能体 MDP 和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性 MDP 算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。

May, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

通过分布偏移误差检查预示着的函数逼近 $Q$ 学习的可证明高效性

本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法，提出了 DSEC oracle 概念，该算法使用多项式数量的轨迹返回近似最优策略，并可用于设计和分析具有一般函数逼近的强化学习算法。

Jun, 2019

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

使用线性函数逼近进行无奖励强化学习

在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。

Jun, 2020

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024