目标导向智能体的无监督预测记忆
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
强化学习中的记忆模型的算法,Fast and Forgetful Memory,通过添加结构先验以及具有对数时间和线性空间复杂度的特点,在循环强化学习算法中实现了更高的奖励,并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。
Oct, 2023
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023
本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL 技术。
Jun, 2022
本研究开发了一种记忆系统,名为神经图,使用空间结构的 2D 记忆图像来学习存储环境的任意信息,能够在长时间间隔内超越以前的 DRL 记忆并且能够推广到在训练期间未见过的环境。
Feb, 2017
本研究利用 RNN 与反向传播算法,扩展了两个连续控制的无模型算法,能够成功地解决大量的物理控制问题,包括部分受到噪声干扰而需要信息短暂整合的问题,以及需要在多个时间步骤中保留信息的长期记忆问题,并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时,通过直接从像素中学习,能够处理高维度的观测问题。
Dec, 2015
提出一种新方法来研究强化学习策略所使用的内部记忆,通过估计行为历史与代理人当前动作之间的互信息来估计相关的过去信息量,并在被动设置下进行这种估计。此外,通过显示它产生了一个实现无关的最小内存容量下界,为我们的方法提供了理论上的理由。作者对对 DQN 政策上的 atari 游戏做出评估,并展示了在 49 个游戏中不同的记忆使用情况。
Nov, 2016
本研究提出通过盲辅助代理训练学习场景的可操作表示,用于导航决策,并且经实验证明该学习表示方式在处理复杂环境及从模拟到真实场景的转换时具有很好的鲁棒性。
Jun, 2023
本研究研究了机器(人工智能导航代理)是否也能建立内在空间表征或地图,通过对盲智能体进行训练,发现即使在没有预先设定机制条件的情况下,盲智能体也能通过记忆体和选择性建立地图,并表现出智能行为,这证明了地图是导航的基本机制之一。
Jan, 2023
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016