模拟引理的最优紧密度界限

Jun, 2024

An Optimal Tightness Bound for the Simulation Lemma

Sam Lobel, Ronald Parr

TL;DR我们提出了一种关于模型误差的值预测误差的边界，包括常数因子。这是强化学习中的基础结果 “模拟引理” 的直接改进。我们通过谨慎考虑这个数量本身，而不是作为值误差的子组件，推导出一种与转换函数误差相关的次线性边界，并在相关的分层抽象子领域证明了这种技术的更广泛适用性。

Abstract

We present a bound for value-prediction error with respect to model misspecification that is tight, including constant factors. This is a direct improvement of the "simulation lemma," a foundational result in rei

value-prediction error model misspecification simulation lemma reinforcement learning transition function misspecification

发现论文，激发创造

局部有界的规格误差下最小二乘值迭代具有鲁棒性

本文研究了价值迭代的鲁棒性，提出了一种名为 Least-Square-Value-Iteration 的算法，并证明其中的探索奖励能够在局部误差边界下达到鲁棒性。

Jun, 2023

错误配置条件下的最优近似因子在离策略价值函数估计中

线性离策略值函数估计中的近似因子的优化形式尚不明确，本研究通过研究加权 L2 范数、L∞范数、有无状态别名和状态空间完全性等设置，在所有这些设置上确定了渐近最优的近似因子（除了常数因子），特别是我们的界限确定了 L2（μ）范数的两个实例相关因子和 L∞范数的一个实例相关因子，从而推断出了在错误规定下离策略评估难度的因素。

Jul, 2023

模型驱动增强学习中的 Lipschitz 连续性

本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限，用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限，并表明估计值函数本身是 Lipschitz 的。最后，我们提供了实证结果，表明控制神经网络模型的 Lipschitz 常数的好处。

Apr, 2018

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性，就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限，并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

该研究针对有限时间段的离散马尔科夫决策问题，提出了一种算法并分析了其性能上限，得出了最先进的范围和如果环境规范小则更紧的限制，其不需要先前对应环境规范的知识，能解决经验学习中常常遇到的限制问题。

Jan, 2019

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

基于模型的强化学习与价值目标回归

本文研究基于模型的强化学习中的后悔最小化问题，提出一种基于乐观主义原则和线性混合模型的算法，并推导出一些后悔界的理论结果。

Jun, 2020

基于分解线性模型的模型导向强化学习的策略误差界

本研究采用基于模型的方法研究在马尔科夫决策过程中计算近似最优策略的问题。我们用一种类似于线性模型的模型导出政策时的损失进行了计算，并给出了多种模型的性能界限。与其他方法导出的类似界限不同的是，我们的界限对折现因子变化不敏感，并且不受度量不匹配的影响。我们的证明基于压缩空间内运算符的收缩论证，采用构建于 Banach 格上的精心设计的范数来加强之前方法的预设。

Feb, 2016

基于潜势的专家建议预测的新界限

本文使用最优控制理论的验证方法，将在线预测问题构造为一个有限时间的零和博弈问题，通过解析特定偏微分方程得到上下界，从而为多个专家数量和不同预测时段提供更优的预测模型。

Nov, 2019

基于互信息的泛化误差界限的紧缩

利用信息论推导出监督学习算法的泛化误差的信息熵上界，能够更全面地考虑损失函数的条件，并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。

Jan, 2019