强化学习中的价值函数多面体

Jan, 2019

The Value Function Polytope in Reinforcement Learning

Robert Dadashi, Adrien Ali Taïga, Nicolas Le Roux, Dale Schuurmans, Marc G. Bellemare

TL;DR该研究论文探讨了有限状态动作 Markov 决策过程中价值函数空间的几何和拓扑性质，发现其形状为一个多面体，并介绍了与策略和价值函数之间的结构关系以及利用可视化方法来增强加强学习算法动态学习的理解。

Abstract

We establish geometric and topological properties of the space of value functions in finite state-action Markov decision processes. Our main contribution is the characterization of the nature of its shape: a general polytope (Aigner et al., 2010). To demonstrate this result, we exhibit

markov decision process value functions polytope reinforcement learning visualizations

发现论文，激发创造

马尔可夫决策过程的几何策略迭代

探究了有限状态 - 动作折扣马尔可夫决策过程的价值函数多面体结构，并使用超平面排列表征了多面体的边界。提出了一种新的算法 Geometric Policy Iteration (GPI) 来解决折扣 MDPs，它使用单个状态的策略更新，以更快的价值改进不影响计算效率，同时允许状态值的异步更新。证明了 GPI 的复杂度达到了策略迭代的最佳已知界限，并展示了 GPI 在各种大小的 MDPs 上的优越性。

Jun, 2022

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

有限时间价值函数的张量低秩逼近

本研究论文提出了一种非参数低秩随机算法，以近似有限时域 MDP 的价值函数。研究采用多维数组或张量表示未知的价值函数，利用从 MDP 采样得到的奖励来估计最优价值函数，并使用截断的 PARAFAC 分解设计了在线低秩算法，以恢复价值函数张量的条目。通过数值实验证明了该方法的高效性，并且低秩 PARAFAC 模型的大小以各个维度的加法方式增长。

May, 2024

强化学习和最优控制中价值函数的连续性和光滑性

价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标，研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限，并证明了在对底层系统有弱假设的情况下，价值函数总是 H"older 连续的，并且可以通过轻微扰动系统使非可微的价值函数变得可微。

Mar, 2024

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020

通过学习识别少而关键的状态进行一般政策评估和改进

在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。

Jul, 2022

线性可行最优状态价值函数下的 MDP 查询效率规划

本文考虑了使用生成模型进行有限轮次的 MDP 本地规划，并提出了一种名为 TensorPlan 算法的方法，在最优价值函数符合线性可实现性的情况下，能够以 poly ((dH/δ) 的复杂度找到相对于任何线性可实现性且存在界限参数的确定性策略的 δ 最优策略；此外，本文还将上限拓展到了近可实现性情况和无限时域折扣设置。

Feb, 2021

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

基于奖励相关性过滤的线性离线强化学习

这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。

Jan, 2024