Vlearn：基于高效状态 - 价值函数估计的离策学习

Mar, 2024

Vlearn：基于高效状态 - 价值函数估计的离策学习

Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation

Fabian Otto, Philipp Becker, Vien Ang Ngo, Gerhard Neumann

TL;DR提出了一种名为 Vlearn 的新型离策略信任区域优化方法，通过只利用一个状态值函数作为评论家来克服现有方法的多个限制，在处理高维动作空间时解决了计算上的挑战。同时，通过消除对状态 - 动作 - 值函数的需求，Vlearn 简化了学习过程，在复杂环境中实现了更高效的探索和利用。

Abstract

Existing off-policy reinforcement learning algorithms typically necessitate an explicit state-action-value function representation, which becomes problematic in →

off-policy reinforcement learning state-action-value function vlearn high-dimensional action spaces state-value function

发现论文，激发创造

通过学习识别少而关键的状态进行一般政策评估和改进

在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。

Jul, 2022

利用残差方差在深度策略梯度中学习价值函数

提供了一种新的方法来训练演员 - 评论家框架中的评论家，使用新的状态 - 值函数逼近，并相对于平均值学习状态（响应地状态 - 动作对）的值，而非如传统的演员 - 评论家算法所学习的绝对值，这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进，特别是在奖励稀疏的任务中。

Oct, 2020

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

从无向状态经验中学习价值函数

本文介绍了一种从无指向性状态体验（即（s，s'，r）三元组，没有动作标签的状态转换）中学习价值函数的方法，该方法基于 Q-learning 将离散潜在变量预测模型中产生的离散潜在动作与值函数联系起来，并实验证明其效益。

Apr, 2022

V-Learning -- 多智能体强化学习的简单高效去中心化算法

使用新类别的分散式算法 - V-learning 解决了多智能体强化学习中联合行动空间指数级增长的问题，在有限态和操作情况下，能够学习 Nash 均衡、相关均衡和粗略相关均衡。

Oct, 2021

离线强化学习中的保守状态值估计

本文提出了一种名为 CSVE 的保守状态价值估计方法，利用惩罚来学习保守的 V 函数，应用于实际的演员 - 评论家算法中，具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中，我们的方法表现比保守 Q 函数学习方法更好，并在最近的 SOTA 方法中占据了强有竞争力的地位。

Feb, 2023

VA-learning 作为比 Q-learning 更高效的替代方案

本研究介绍了 VA-learning 方法，通过学习优势函数和价值函数的直接引导，而不需要参考 Q 函数，从而提高了样本效率，并且在 Atari-57 游戏上，VA-learning 的表格实现和深度强化学习代理都能够获得比 Q-learning 更好的表现，同时还揭示了 VA-learning 和 dueling architecture 之间的紧密联系。

May, 2023

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

半参数连续动作高效策略学习

研究非策略性评估和优化在连续行动空间中的应用，提出基于半参量法的双重稳健非策略性估计模型，并证明了其对策略函数估计误差或回归模型的估计误差具有稳健性。该模型对于最优个性化定价和资源分配具有应用价值。

May, 2019