基于分解线性模型的模型导向强化学习的策略误差界

Feb, 2016

基于分解线性模型的模型导向强化学习的策略误差界

Policy Error Bounds for Model-Based Reinforcement Learning with Factored Linear Models

Bernardo Ávila Pires, Csaba Szepesvári

TL;DR本研究采用基于模型的方法研究在马尔科夫决策过程中计算近似最优策略的问题。我们用一种类似于线性模型的模型导出政策时的损失进行了计算，并给出了多种模型的性能界限。与其他方法导出的类似界限不同的是，我们的界限对折现因子变化不敏感，并且不受度量不匹配的影响。我们的证明基于压缩空间内运算符的收缩论证，采用构建于 Banach 格上的精心设计的范数来加强之前方法的预设。

Abstract

In this paper we study a model-based approach to calculating approximately optimal policies in markovian decision processes. In particular, we derive novel bounds on the loss of using a policy derived from a fact

markovian decision processes model-based approach linear models performance bounds weighted norms

发现论文，激发创造

错误配置条件下的最优近似因子在离策略价值函数估计中

线性离策略值函数估计中的近似因子的优化形式尚不明确，本研究通过研究加权 L2 范数、L∞范数、有无状态别名和状态空间完全性等设置，在所有这些设置上确定了渐近最优的近似因子（除了常数因子），特别是我们的界限确定了 L2（μ）范数的两个实例相关因子和 L∞范数的一个实例相关因子，从而推断出了在错误规定下离策略评估难度的因素。

Jul, 2023

马尔可夫决策过程中无界每步成本的模型近似

设计控制策略时，我们考虑在只有近似模型的情况下对无限时域折扣成本马尔可夫决策过程进行控制。对于在原始模型中使用近似模型的最优策略的性能如何，在原始模型中使用的近似模型的价值函数与原始模型的最优价值函数之间的差异的加权范数提供了上界的边界。通过考虑每步成本的仿射变换，我们进一步提供了可能更紧密的上界，并且上界明确取决于原始模型和近似模型之间成本函数和状态转移核之间的加权距离。我们提供示例以说明我们的结果。

Feb, 2024

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

面向因式化马尔可夫决策过程的极小极大最优强化学习

本文研究了在 FMDP 中使用最小最大算法的强化学习，提出了两种基于模型的算法，并通过结构相关的阈值证明了其保证。

Jun, 2020

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020

线性马尔可夫决策过程的无界遗憾

近期一些研究工作展示了强化学习中降低后悔的边界可以（几乎）与计划周期无关，即所谓的无周期边界。然而，这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置，例如表格型马尔科夫决策过程（MDP）和线性混合 MDP。我们给出了流行的线性 MDP 设置的首个无周期边界，其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比，该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数，而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器，该方法获得了无周期边界，并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。

Mar, 2024

基于方差的线性赌博机和线性混合 MDP 置信区间的改进

本文提出了一种新的方差感知置信集，用于线性 bandits 和线性混合马尔可夫决策过程（MDPs）中，我们得到了与方差和维度相关，但不显式依赖于循环次数 k 的后悔上限，并获得了史上首个仅在强化学习中呈对数比例的后悔上限，这三种技术思想可能是独立感兴趣的应用。

Jan, 2021

通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏（技术报告）

在强化学习中，为了解决政策简化和验证的挑战，作者们构建了 DeepMDP 框架，基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界，该边界可以为 MDP 的形式方法应用提供支持。同时，作者们还演示了如何通过最先进的 RL 获得一个政策，并使用该政策有效地训练一个 VAE 模型，获得这个模型的双模拟保证的近似正确性的提炼版。

Dec, 2021

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020