采用循环胶囊网络实现状态表示学习
本研究针对建立连续学习中的状态表示模型问题展开讨论,为保留过去知识的同时高效压缩感知状态信息,我们提出了使用变分自编码器(Variational Auto-Encoders)作为状态表示,并基于生成样本的生成回放(Generative Replay)技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递,还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习,无需使用过去数据。
Oct, 2018
该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习,该方法包含多个状态表示学习方法,能够提高采样效率、提高性能、抗超参数变化,并编码所有相关特征。
Jan, 2019
通过实验和分析,本论文研究了基于循环神经网络 (RNNs) 代理的表示学习,尤其是在政策梯度和基于价值的方法下对循环神经网络进行了训练。我们展示了当使用政策梯度进行训练时,循环神经网络往往无法学习到导致最优策略的状态表示。这一现象被称为状态别名问题,我们通过实验表明它在政策梯度下出现,同时在迷宫设置和更复杂的文本游戏上提出了训练 RNN 代理的建议。
Jun, 2019
研究 CapsNet 的路由对模型拟合的影响,胶囊表征如何帮助发现数据分布中的全局结构以及学习的数据表征如何适应和推广到新任务。研究结果表明,路由操作决定胶囊向上图层传递信息的确定性,适当的确定性与模型适应度相关;在数据已知 2D 结构的实验中,胶囊表征比标准 CNN 中的神经元更有意义;与标准 CNN 的神经元相比,延续层的胶囊更适应新的数据分布。
Oct, 2018
本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法,使用深度强化学习方法,并结合自监督目标和对视觉输入和与环境的交互结构的预测,提高了代理器的学习效率,并在 Atari 游戏中显著提高了性能。
Jul, 2020
本文介绍了一种新技术 ——Quantized Bottleneck Insertion,可以学习到具有限表示的递归神经网络,其结果是递归神经网络的量化表示,该表示可用于分析内存使用和行为的更好理解。通过将此方法应用于合成环境和六个 Atari 游戏,我们发现这些有限表示,在某些情况下令人惊讶地很小,完美的 Pong 策略仅使用 3 个离散内存状态和 10 个观测。此外,我们还展示了这些有限策略表示导致了较好的可解释性。
Nov, 2018
本文探讨了使用现代神经网络结构学习信念表示的可能性,并使用一步帧预测和两个变体的对比预测编码作为目标函数来学习表示。我们发现,神经表示能够捕获到环境的信念信息,这有潜力在部分可观测领域中促进学习和规划的新进展。
Nov, 2018
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022