神经地图:深度强化学习的结构化记忆
本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。
Feb, 2021
本文提出了一个基于强化学习的路径规划方法,可以应用到多经纬系统,通过训练一个连续状态和动作的策略网络,使其具有理想的路径规划行为,该方法通过 LSTM 模块来编码不特定数量的状态,可以扩展到具有无限数量代理和维度的情形,同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。
Mar, 2022
本文提出了一种改进的深度强化学习方法,使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理,避免了需要额外环境信息的需求,从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。
Jan, 2023
本文在 Minecraft 中引入了一组新的强化学习任务,并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明,我们的新架构相比现有的深度强化学习架构,在未使用的环境中有更好的泛化表现。
May, 2016
本研究提出了一种新的方法,通过嵌入传统同时定位与建图(SLAM)的程序到软的注意力机制中,从而使得机器代理从传感器数据学习全局地图的表征,在无人环境中,可以通过深度神经网络进化具有类似 SLAM 的行为和强化学习代理,成功地在必须保持长期记忆的新环境中进行探索。
Jun, 2017
本文提出了一种新型的基于模型的强化学习方法,利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的,该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。
Apr, 2018
强化学习中的记忆模型的算法,Fast and Forgetful Memory,通过添加结构先验以及具有对数时间和线性空间复杂度的特点,在循环强化学习算法中实现了更高的奖励,并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。
Oct, 2023
本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018