本文研究了价值迭代的鲁棒性,提出了一种名为 Least-Square-Value-Iteration 的算法,并证明其中的探索奖励能够在局部误差边界下达到鲁棒性。
Jun, 2023
线性离策略值函数估计中的近似因子的优化形式尚不明确,本研究通过研究加权 L2 范数、L∞范数、有无状态别名和状态空间完全性等设置,在所有这些设置上确定了渐近最优的近似因子(除了常数因子),特别是我们的界限确定了 L2(μ)范数的两个实例相关因子和 L∞范数的一个实例相关因子,从而推断出了在错误规定下离策略评估难度的因素。
Jul, 2023
本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限,用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限,并表明估计值函数本身是 Lipschitz 的。最后,我们提供了实证结果,表明控制神经网络模型的 Lipschitz 常数的好处。
Apr, 2018
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性,就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限,并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。
Jun, 2024
本文研究基于模型的强化学习中的后悔最小化问题,提出一种基于乐观主义原则和线性混合模型的算法,并推导出一些后悔界的理论结果。
Jun, 2020
本研究采用基于模型的方法研究在马尔科夫决策过程中计算近似最优策略的问题。我们用一种类似于线性模型的模型导出政策时的损失进行了计算,并给出了多种模型的性能界限。 与其他方法导出的类似界限不同的是,我们的界限对折现因子变化不敏感,并且不受度量不匹配的影响。我们的证明基于压缩空间内运算符的收缩论证,采用构建于 Banach 格上的精心设计的范数来加强之前方法的预设。
Feb, 2016
本文使用最优控制理论的验证方法,将在线预测问题构造为一个有限时间的零和博弈问题,通过解析特定偏微分方程得到上下界,从而为多个专家数量和不同预测时段提供更优的预测模型。
Nov, 2019
利用信息论推导出监督学习算法的泛化误差的信息熵上界,能够更全面地考虑损失函数的条件,并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。