深度循环神经网络结构预测中的状态别名研究

ICLRJun, 2019

深度循环神经网络结构预测中的状态别名研究

A Study of State Aliasing in Structured Prediction with RNNs

Layla El Asri, Adam Trischler

TL;DR通过实验和分析，本论文研究了基于循环神经网络 (RNNs) 代理的表示学习，尤其是在政策梯度和基于价值的方法下对循环神经网络进行了训练。我们展示了当使用政策梯度进行训练时，循环神经网络往往无法学习到导致最优策略的状态表示。这一现象被称为状态别名问题，我们通过实验表明它在政策梯度下出现，同时在迷宫设置和更复杂的文本游戏上提出了训练 RNN 代理的建议。

Abstract

end-to-end reinforcement learning agents learn a state representation and a policy at the same time. recurrent neural networks (RNNs) have

end-to-end reinforcement learning recurrent neural networks state representation policy gradient state aliasing

发现论文，激发创造

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

学习循环策略网络的有限状态表示

本文介绍了一种新技术 ——Quantized Bottleneck Insertion，可以学习到具有限表示的递归神经网络，其结果是递归神经网络的量化表示，该表示可用于分析内存使用和行为的更好理解。通过将此方法应用于合成环境和六个 Atari 游戏，我们发现这些有限表示，在某些情况下令人惊讶地很小，完美的 Pong 策略仅使用 3 个离散内存状态和 10 个观测。此外，我们还展示了这些有限策略表示导致了较好的可解释性。

Nov, 2018

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

递归 Q 学习的近似信息状态收敛分析

该论文研究了强化学习算法中的一种非马尔可夫过程，提出了一种基于近似信息状态 (AIS) 的改进方法，展示了其比基线更好的表现和与 AIS 表示相关的性能变化。

Jun, 2023

采用循环胶囊网络实现状态表示学习

本文提出了一种循环胶囊网络，通过预测智能体轨迹中的未来观测来学习紧凑而相关的状态表示，进而有效地解决复杂的强化学习任务。

Dec, 2018

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

利用预测状态表示关闭学习和规划循环

本文提出并演示了一种精确学习环境模型的新算法，该算法从行动 - 观测对的序列中直接学习此类环境的模型，并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。

Dec, 2009

状态再造网络：通过对隐藏表示的分布进行建模来提高泛化能力

本文介绍了一种名为 “状态再构建” 的方法，旨在解决有限标记数据下现有神经网络方法的脆弱性问题，通过建模隐藏状态的分布并投影测试期间观察到的隐藏状态，从而帮助神经网络更好地泛化，特别是在标记数据稀缺的情况下，并且有助于克服采用对抗训练实现稳健泛化的挑战。

May, 2019

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

学习部分可观测环境的因果状态表示

本文提出了一种基于循环神经网络（RNN）的近似因果状态算法，该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明，所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题，并与之前的方法进行比较。

Jun, 2019