使用连续内存状态学习深度神经网络策略

Jul, 2015

使用连续内存状态学习深度神经网络策略

Learning Deep Neural Network Policies with Continuous Memory States

Marvin Zhang, Zoe McCarthy, Chelsea Finn, Sergey Levine, Pieter Abbeel

TL;DR通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Abstract

policy learning for partially observed control tasks requires policies that can remember salient information from past observations. In this paper, we present a method for learning policies with internal memory f

policy learning internal memory continuous systems guided policy search memory states

发现论文，激发创造

基于记忆的循环神经网络控制

本研究利用 RNN 与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Dec, 2015

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

使用基于记忆的学习来解决具有状态 - 动作约束的任务

使用基于记忆的学习方法，利用任务的符号特性和动作的时间顺序，快速获取和传输高级信息，以解决不连续性约束的任务，这种代理方式比基于模型和无模型深度强化学习方法解决这些任务更快。

Mar, 2023

利用剧集记忆解决连续控制问题

本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由模型离线算法，实现了更高的样本效率。

Jun, 2021

基于记忆的轨迹条件策略在稀疏奖励学习中的应用

本文提出了一种基于轨迹条件的策略学习方法，通过从内存缓冲区中展开多种多样的过去轨迹，可帮助策略创造者更好地探索状态空间，并在各种复杂任务中显著提高模型性能。（本方法可以不用专家演示或将模型重置为任意状态，在 Atari 游戏 Montezuma's Revenge 和 Pitfall 的五十亿帧内取得了最先进的得分）

Jul, 2019

探索深度和循环结构用于最优控制

本文研究了多层神经网络在控制方面的应用，特别是在连续高维动作任务中，通过强化学习训练后实现了控制策略，结果表明可以成功训练具有成千上万个参数的神经网络控制器，并比较了各种不同结构。文章讨论了这一问题与以往有监督知觉任务的区别，呈现了实验结果，并讨论了将深度学习技术应用于控制问题优化的未来方向。

Nov, 2013

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

学习，快与慢：面向动态环境的目标导向基于记忆的方法

本研究针对基于模型的下一状态预测和状态价值预测收敛缓慢的问题，使用并行内存检索系统进行基于模型的规划，使用神经网络指导代理的行为，通过基于目标的探索在线训练，取得了 92% 的解决率，显示出 RL 模型应用于目标和子目标规划的未来。

Jan, 2023

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

学习部分可观测环境的有限状态控制器

本文介绍了使用有限状态自动机表示具有有限记忆的策略学习算法，具体探讨在部分可观测的 MDP 问题中，基于随机梯度下降的 VAPS 算法进行本地优化的通用有限状态自动机控制器的问题。并进一步讨论了在何种条件下随机梯度下降将优于精确梯度下降的问题，通过实证研究验证了该算法在补偿每个时间步上的不可观测性方面发挥了良好的效果。

Jan, 2013