基于递归卷积神经网络的强化学习

Jan, 2017

基于递归卷积神经网络的强化学习

Reinforcement Learning via Recurrent Convolutional Neural Networks

Tanmay Shankar, Santosha K. Dwivedy, Prithwijit Guha

TL;DR使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Abstract

deep reinforcement learning has enabled the learning of policies for complex tasks in partially observable environments, without explicitly learning the underlying model of the tasks. While such model-free method

deep reinforcement learning recurrent convolutional neural networks value iteration partially observable environments model-based rl

发现论文，激发创造

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

面向移动机器人的深度强化学习认知探索

本文提出了一种使用深度强化学习方法，利用 RGB-D 传感器在室内环境中探索移动机器人的方法，通过对特征表示的感受野进行分析，深度强化学习促进了卷积网络估计场景的遍历性，实验结果表明，采用该方法训练的机器人控制器在真实环境中的认知能力显著提高。

Oct, 2016

任务驱动的卷积循环视觉系统模型

通过引入前馈卷积神经网络与反馈式局部循环连接设计，提高图像识别准确性，更加贴近灵长类动物视觉系统的神经活动，为当代物体识别任务的研究提供了新的思路。

Jun, 2018

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

视频视觉目标跟踪的深度强化学习

本文提出一种全面的端到端视频视觉跟踪方法，利用循环卷积神经网络代理与视频进行交互，并结合强化学习算法来学习不断的关注连续帧相关性和最大化在长期内的跟踪性能，实现了比现有跟踪基准更快速的状态 - of-the-art 性能。是第一个将卷积和循环网络与强化学习算法相结合的神经网络跟踪器。

Jan, 2017

使用多层读出的水库计算深度 Q 网络

这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Mar, 2022

使用强化学习设计神经网络结构

使用元建模算法 MetaQNN 根据强化学习自动生成高性能卷积神经网络 (CNN) 结构，可以在图像分类基准测试中击败同层级别的现有网络，并且相比其他网络设计元建模方法具有更好的效果.

Nov, 2016

群等变深度强化学习

本文提出使用 Equivariant CNNs 训练强化学习智能体并研究其在对称变换方面的归纳偏差，结果表明在高度对称的环境中，使用 Equivariant CNNs 可以显著提高智能体的性能和样本效率，同时还需要更少的参数，而且它们对仿射变换引起的环境变化具有鲁棒性。

Jul, 2020

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

透過週期性神經網路的增強學習，實現行動層次和組合的自我組織

该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习，可以自主学习抽象的子目标并自我开发行为层次结构，在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时，研究发现，当神经活动遵循随机动态时，可以实现更好的表现。

Jan, 2019