强化学习中的度量和连续性

AAAIFeb, 2021

Metrics and continuity in reinforcement learning

Charline Le Lan, Marc G. Bellemare, Pablo Samuel Castro

TL;DR本文通过介绍度量学和邻域的形式表述，建立了各种相似度度量之间的层次结构，并研究了这些度量的理论性质和在强化学习问题上的应用，同时结合实验结果，进一步探讨了这些度量方法的差异。

Abstract

In most practical applications of reinforcement learning, it is untenable to maintain direct estimates for individual states; in continuous-state systems, it is impossible. Instead, researchers often leverage state simi

reinforcement learning state similarity metrics markov decision process empirical evaluations

发现论文，激发创造

马尔可夫决策过程中计算状态相似性的方法

本文运用网络优化和统计抽样技术，克服了计算 Kantorovich 度量在实践中的成本问题，提出了一系列用于 MDP 状态聚合的距离函数，这些函数在时间和空间复杂度以及聚合质量之间存在不同的权衡，并对这些权衡进行了实证评估。

Jun, 2012

有限马尔可夫决策过程的度量

该研究提出了用于测量有限马尔可夫决策过程（MDP）状态相似性的度量标准，其基于 MDP 的这种有限状态的相似性概念构建，并可应用于强化学习任务的价值函数逼近器中。通过该度量标准，优化 MDP 中给定状态的最优值与度量距离之间关系的边界得到了提供。

Jul, 2012

具有无限状态空间的马尔可夫决策过程度量

本文提出了度量具有无限状态的马尔可夫决策过程（MDPs）中状态相似性的指标，包括具有连续状态空间的 MDPs。这样的指标为 MDPs 的同步关系提供了稳定的定量分析，适用于 MDP 逼近。我们展示了与我们的指标距离有关的贴现无限时域规划任务相关的最优价值函数连续变化的情况。

Jul, 2012

MICo: 基于采样状态相似性的改进型马尔可夫决策过程表示

本文提出了一种新的行为距离方法，用于深度强化学习智能体的学习表示，并通过理论和实证研究表明，该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题，同时在 Arcade Learning Environment 基准测试中取得了良好的结果。

Jun, 2021

游戏指标算法

基于模拟和双模拟的指标可以用于系统验证和性能评估，适用于定量的 mu - 演算和相关概率逻辑，对于马尔可夫链，我们提供了一个 PSPACE 算法，以匹配最佳算法，并且这些算法可以通过二分搜索来逼近指标。

Sep, 2008

强化学习中基于对比行为相似性的嵌入用于泛化

该研究旨在提出一种基于顺序结构的强化学习方法来提高泛化能力，引入一种理论动机的策略相似度测量标准以及对比度表示学习方法，能够测量和嵌入任何状态相似度测量标准，从而达到改善类似于包含虚假相关性的 LQR、从像素到跳跃的任务以及 Distracting DM 控制套件等不同基准下的泛化效果。

Jan, 2021

在连续状态 - 动作空间中驯服 “数据饥饿” 的强化学习稳定性

我们介绍了一种分析连续状态 - 动作空间强化学习的新框架，并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性，涉及价值函数和 / 或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态 - 动作马尔科夫决策过程中得到满足，并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角，并突出了离线强化学习与迁移学习之间的联系。

Jan, 2024

度量空间中的高效无模型强化学习

本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法，利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法，无需使用黑盒规划预言机。

May, 2019

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

度量空间内高效无模型强化学习中的缩放

该论文提出了 ZoomRL 算法，应用于连续状态 - 动作空间中的序列强化学习问题，通过自适应离散化来平衡开发与探索并获得良好的性能保证。算法可以达到最坏情况下的复杂度 $\tilde {O}(H^{rac {5}{2}} K^{rac {d+1}{d+2}})$，且对度量的偏离具有鲁棒性。

Mar, 2020