具有随机有状态策略的高效强化学习

Nov, 2023

具有随机有状态策略的高效强化学习

Time-Efficient Reinforcement Learning with Stochastic Stateful Policies

Firas Al-Hafez, Guoping Zhao, Jan Peters, Davide Tateo

TL;DR通过对后续政策梯度的跟踪，我们提出了一种训练有状态政策的新方法，将其分解为随机内部状态核和无状态策略，实现了对流行强化学习和模仿学习算法的有状态变体，同时比传统的逆传播算法具有更快和更简单的特点。

Abstract

stateful policies play an important role in reinforcement learning, such as handling partially observable environments, enhancing robustness, or imposing an inductive bias directly into the policy structure. The

stateful policies backpropagation through time gradient estimator reinforcement learning imitation learning

发现论文，激发创造

利用稀疏连接和选择性学习的在线实时递归学习

这篇论文介绍了一种基于循环神经网络的状态构建方法，提出了能够让实时递归学习可扩展的两个约束条件，并在基准测试和政策评估中证明了其有效性。

Jan, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

通过随机值梯度学习连续控制策略

本文提出了一种使用反向传播学习连续控制策略的统一框架，并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数，来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型，但只需要来自环境的观察而不是模型预测轨迹的观察，最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题，然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG（1）显示了在连续领域同时学习模型，价值函数和策略的有效性。

Oct, 2015

通过 Dropout 扩展基于学习的政策优化算法以适用于时间相关任务

该论文介绍了一种基于模型的方法，用于针对高度非线性环境中的自主代理训练反馈控制器。我们希望该训练策略确保代理满足以离散时间信号时序逻辑（DT-STL）表达的特定任务目标。为了解决长时间跨度任务目标的问题，我们引入了一种基于随机梯度近似算法的梯度近似算法，并提出了适用于复杂规范的 DT-STL 的新的平滑语义。

Mar, 2024

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

学习部分可观测环境的有限状态控制器

本文介绍了使用有限状态自动机表示具有有限记忆的策略学习算法，具体探讨在部分可观测的 MDP 问题中，基于随机梯度下降的 VAPS 算法进行本地优化的通用有限状态自动机控制器的问题。并进一步讨论了在何种条件下随机梯度下降将优于精确梯度下降的问题，通过实证研究验证了该算法在补偿每个时间步上的不可观测性方面发挥了良好的效果。

Jan, 2013

情节性强化学习的稳态分析

本文证明了每个有限时间决策任务的情节学习环境在任何行为策略下都有一个独特的稳态，并且代理输入的边缘分布在几乎所有情节学习过程中确实会收敛到稳态分布。此观察支持一种反转常规智慧的思维方式。基于这个观察，本文围绕着几个重要的概念统一了情节式和持续式强化学习，并提出并验证了一种有助于在现实 RL 任务中实现快速稳态收敛的扰动方法。

Nov, 2020

解决持续任务强化学习中无界状态空间问题

本篇论文探讨了深度加强学习算法在面对状态空间无法预测，强烈依赖于重置时的困境。通过引入 Lyapunov 启发式奖励塑造方法，策略学习可以更快、更稳定地收敛到最优解

Jun, 2023

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024