神经地图：深度强化学习的结构化记忆

Feb, 2017

神经地图：深度强化学习的结构化记忆

Neural Map: Structured Memory for Deep Reinforcement Learning

Emilio Parisotto, Ruslan Salakhutdinov

TL;DR本研究开发了一种记忆系统，名为神经图，使用空间结构的 2D 记忆图像来学习存储环境的任意信息，能够在长时间间隔内超越以前的 DRL 记忆并且能够推广到在训练期间未见过的环境。

Abstract

A critical component to enabling intelligent reasoning in partially observable environments is memory. Despite this importance, Deep Reinforcement Learning (DRL) agents have so far used relatively simple memory architectures, with the main methods to overcome →

deep reinforcement learning memory architectures neural map partial observability 3d environments

发现论文，激发创造

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

一种内存高效的蛇游戏自主代理深度强化学习方法

本文提出了一种改进的深度强化学习方法，使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理，避免了需要额外环境信息的需求，从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。

Jan, 2023

Minecraft 中的记忆、主动感知和动作控制

本文在 Minecraft 中引入了一组新的强化学习任务，并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明，我们的新架构相比现有的深度强化学习架构，在未使用的环境中有更好的泛化表现。

May, 2016

神经 SLAM：学习利用外部存储进行探索

本研究提出了一种新的方法，通过嵌入传统同时定位与建图（SLAM）的程序到软的注意力机制中，从而使得机器代理从传感器数据学习全局地图的表征，在无人环境中，可以通过深度神经网络进化具有类似 SLAM 的行为和强化学习代理，成功地在必须保持长期记忆的新环境中进行探索。

Jun, 2017

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018

元学习神经记忆

本文提出了一种基于外部内存机制及元学习的可快速调整及变更参数的深度神经网络，该模型不仅适用于监督性问题，还能在强化学习等多种学习问题中取得较好的表现。

Jul, 2019

目标导向智能体的无监督预测记忆

本文介绍了一个新的模型 MERLIN，其通过利用可预测的建模引导记忆形成，使单一的学习智能体架构能够在心理学和神经生物学中解决基本行为任务。

Mar, 2018

强化学习中的快速遗忘记忆

强化学习中的记忆模型的算法，Fast and Forgetful Memory，通过添加结构先验以及具有对数时间和线性空间复杂度的特点，在循环强化学习算法中实现了更高的奖励，并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。

Oct, 2023

情节记忆深度 Q 网络

本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks（EMDQN），该算法利用情节内存来监督代理在训练过程中，实验表明我们提出的方法可以提高样本效率，更容易找到好策略，在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况，明显优于常规 DQN 和其他情节记忆基 RL 算法。

May, 2018