目标导向智能体的无监督预测记忆

Mar, 2018

目标导向智能体的无监督预测记忆

Unsupervised Predictive Memory in a Goal-Directed Agent

Greg Wayne, Chia-Chun Hung, David Amos, Mehdi Mirza, Arun Ahuja...

TL;DR本文介绍了一个新的模型 MERLIN，其通过利用可预测的建模引导记忆形成，使单一的学习智能体架构能够在心理学和神经生物学中解决基本行为任务。

Abstract

Animals execute goal-directed behaviours despite the limited range and scope of their sensors. To cope, they explore environments and store memories maintaining estimates of important information that is not presently available. Recently, progress has been made with artificial intelligence

artificial intelligence reinforcement learning memory merlin partial observability

发现论文，激发创造

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

强化学习中的快速遗忘记忆

强化学习中的记忆模型的算法，Fast and Forgetful Memory，通过添加结构先验以及具有对数时间和线性空间复杂度的特点，在循环强化学习算法中实现了更高的奖励，并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。

Oct, 2023

深思熟虑：带有内部工作记忆的决策 Transformer

本文提出了一种基于内部工作记忆模块的决策制定代理，可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力，并进一步证明记忆微调可以增强所提出架构的适应性。

May, 2023

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

神经地图：深度强化学习的结构化记忆

本研究开发了一种记忆系统，名为神经图，使用空间结构的 2D 记忆图像来学习存储环境的任意信息，能够在长时间间隔内超越以前的 DRL 记忆并且能够推广到在训练期间未见过的环境。

Feb, 2017

基于记忆的循环神经网络控制

本研究利用 RNN 与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Dec, 2015

记忆镜头：一个代理程序使用了多少内存？

提出一种新方法来研究强化学习策略所使用的内部记忆，通过估计行为历史与代理人当前动作之间的互信息来估计相关的过去信息量，并在被动设置下进行这种估计。此外，通过显示它产生了一个实现无关的最小内存容量下界，为我们的方法提供了理论上的理由。作者对对 DQN 政策上的 atari 游戏做出评估，并展示了在 49 个游戏中不同的记忆使用情况。

Nov, 2016

利用鼹鼠学习：可转移的潜在空间表示，实现无需重建的导航

本研究提出通过盲辅助代理训练学习场景的可操作表示，用于导航决策，并且经实验证明该学习表示方式在处理复杂环境及从模拟到真实场景的转换时具有很好的鲁棒性。

Jun, 2023

盲人导航智能体记忆中的地图生成

本研究研究了机器（人工智能导航代理）是否也能建立内在空间表征或地图，通过对盲智能体进行训练，发现即使在没有预先设定机制条件的情况下，盲智能体也能通过记忆体和选择性建立地图，并表现出智能行为，这证明了地图是导航的基本机制之一。

Jan, 2023

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016