采用循环胶囊网络实现状态表示学习

NIPSDec, 2018

采用循环胶囊网络实现状态表示学习

State representation learning with recurrent capsule networks

Louis Annabi, Michael Garcia Ortiz

TL;DR本文提出了一种循环胶囊网络，通过预测智能体轨迹中的未来观测来学习紧凑而相关的状态表示，进而有效地解决复杂的强化学习任务。

Abstract

unsupervised learning of compact and relevant state representations has been proved very useful at solving complex reinforcement learning tasks. In this paper, we propose a →

unsupervised learning reinforcement learning recurrent capsule network prediction state representation

发现论文，激发创造

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

目标驱动机器人中从策略学习中分离特征提取：评估状态表示学习的优劣

该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习，该方法包含多个状态表示学习方法，能够提高采样效率、提高性能、抗超参数变化，并编码所有相关特征。

Jan, 2019

奖励预测聚类

通过聚类算法，构建奖励预测深度网络所需的状态抽象，加速高维可视控制任务的学习并实现通过预先训练的奖励预测表示网络在不重新训练的情况下加速学习的系统性跨分布传递。

Nov, 2022

深度循环神经网络结构预测中的状态别名研究

通过实验和分析，本论文研究了基于循环神经网络 (RNNs) 代理的表示学习，尤其是在政策梯度和基于价值的方法下对循环神经网络进行了训练。我们展示了当使用政策梯度进行训练时，循环神经网络往往无法学习到导致最优策略的状态表示。这一现象被称为状态别名问题，我们通过实验表明它在政策梯度下出现，同时在迷宫设置和更复杂的文本游戏上提出了训练 RNN 代理的建议。

Jun, 2019

胶囊网络学习和学习数据表示

研究 CapsNet 的路由对模型拟合的影响，胶囊表征如何帮助发现数据分布中的全局结构以及学习的数据表征如何适应和推广到新任务。研究结果表明，路由操作决定胶囊向上图层传递信息的确定性，适当的确定性与模型适应度相关；在数据已知 2D 结构的实验中，胶囊表征比标准 CNN 中的神经元更有意义；与标准 CNN 的神经元相比，延续层的胶囊更适应新的数据分布。

Oct, 2018

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020

学习循环策略网络的有限状态表示

本文介绍了一种新技术 ——Quantized Bottleneck Insertion，可以学习到具有限表示的递归神经网络，其结果是递归神经网络的量化表示，该表示可用于分析内存使用和行为的更好理解。通过将此方法应用于合成环境和六个 Atari 游戏，我们发现这些有限表示，在某些情况下令人惊讶地很小，完美的 Pong 策略仅使用 3 个离散内存状态和 10 个观测。此外，我们还展示了这些有限策略表示导致了较好的可解释性。

Nov, 2018

神经预测信念表示

本文探讨了使用现代神经网络结构学习信念表示的可能性，并使用一步帧预测和两个变体的对比预测编码作为目标函数来学习表示。我们发现，神经表示能够捕获到环境的信念信息，这有潜力在部分可观测领域中促进学习和规划的新进展。

Nov, 2018

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022