通过学习识别少而关键的状态进行一般政策评估和改进

Jul, 2022

通过学习识别少而关键的状态进行一般政策评估和改进

General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States

Francesco Faccio, Aditya Ramesh, Vincent Herrmann, Jean Harb, Jürgen Schmidhuber

TL;DR在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。

Abstract

Learning to evaluate and improve policies is a core problem of Reinforcement Learning (RL). Traditional RL algorithms learn a value function defined for a single policy. A recently explored competitive alternative is to learn a single →

reinforcement learning actor-critic architecture value function policy evaluation networks probing states

发现论文，激发创造

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

基于参数的值函数

本文提出了基于参数的值函数（PBVFs）的方法，它们可以在不同的策略之间进行泛化，并首次展示了如何使用 PBVF 推导出新颖的离线策略梯度定理，然后采用蒙特卡罗或时间差分方法训练 PBVF 并基于此演算出离线策略梯度（off-policy policy gradient）算法，结果表明学习到的 PBVF 能够零 - shot 学习新的超越训练阶段任何策略的好策略，另外文章也在离散和连续控制任务上进行实验，表现得与最先进的方法类似。

Jun, 2020

Vlearn：基于高效状态 - 价值函数估计的离策学习

提出了一种名为 Vlearn 的新型离策略信任区域优化方法，通过只利用一个状态值函数作为评论家来克服现有方法的多个限制，在处理高维动作空间时解决了计算上的挑战。同时，通过消除对状态 - 动作 - 值函数的需求，Vlearn 简化了学习过程，在复杂环境中实现了更高效的探索和利用。

Mar, 2024

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

升值路径：走向更好的强化学习表征

通过对价值改善路径的整体近似，以增强价值函数逼近能力，提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试，该算法的性能得到了显著提高。

Jun, 2020

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

深度强化学习的理解与诊断

利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用，但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题，特别是对于高度非凸和复杂的神经网络结构，不可识别、非鲁棒特征对策略决策有较大敏感性。因此，有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法，系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中，我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是，我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时，随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性，并能帮助构建可靠而稳健的深度神经策略。

Jun, 2024

线性函数逼近作为计算有效的经典强化学习挑战解决方法

基于神经网络的价值函数的近似是领先的基于策略的方法（如 Trust Regional Policy Optimization (TRPO) 和 Proximal Policy Optimization (PPO)）的核心。然而，在状态空间和行动空间较低的环境中，计算复杂的神经网络架构与简单的价值函数近似方法相比，提供的改进幅度较小。本文提出了基于自然策略梯度方法的自然演员 - 评论员算法实现，并认为在这些环境中，以线性函数近似为范例的自然策略梯度方法可能超过 TRPO 和 PPO 等基于神经网络的模型的性能和速度。我们观察到，在强化学习基准 Cart Pole 和 Acrobot 上，我们的算法训练速度比复杂的神经网络架构快得多，并获得相等或更好的结果。这使我们能够推荐在传统和稀疏奖励低维问题中使用以线性函数近似为范例的自然策略梯度方法，而不是 TRPO 和 PPO。

May, 2024

强化学习中的种群指导并行策略搜索

提出了一种新的基于群体引导的并行学习方法，通过在共享经验回放缓冲区中搜索良好的策略，结合最佳策略信息，软融合构建损失函数，以实现稀疏奖励环境下提升最佳期望累计回报的目的，其中 TD3 算法是工作算法之一。

Jan, 2020