通用价值函数网络

Jul, 2018

General Value Function Networks

Matthew Schlegel, Andrew Jacobsen, Zaheer Abbas, Andrew Patterson, Adam White...

TL;DR本文探讨了如何在 RNN 中使用多步预测来限制内部状态，提高训练性能，提出了一种新的 RNN 架构 GVFH，其中每个内部状态组件都对应一个表示为值函数的未来预测，并证明它比传统的 RNN 更加健壮。

Abstract

state construction is important for learning in partially observable environments. A general purpose strategy for state construction is to learn the state update using a →

state construction recurrent neural network multi-step predictions trainability value function

发现论文，激发创造

利用后继表示加速建构性预测框架的学习

本文研究使用后继表示法（SR）加速基于通用价值函数（GVF）的积极知识系统的学习，在网格世界中分析了该方法，并在机器人物理数据上证明了它的潜力。

Mar, 2018

现实世界中的 GVFs：在线为水处理进行预测

使用基于强化学习的预测方法研究实际饮用水处理厂，描述数据集中的挑战和使用离线数据预训练临时差异学习代理的方法，并证明实时适应预测对于实际非平稳的大容量系统至关重要。

Dec, 2023

预测状态循环神经网络

我们提出了一种新的模型，Predictive State Recurrent Neural Networks (PSRNNs)，用于过滤和预测动态系统中的信息。我们使用了循环神经网络 (RNNs) 和预测状态表示 (PSRs) 的见解，并继承了这两种模型的优势。我们表明，我们的模型可以通过联合反向传播算法和基于统计一致性的学习算法 Two-Stage Regression (2SR) 的初始化来有效地学习和因数分解模型大小，以减少模型计算时间和提高模型性能。通过实验，我们证明了在所有情况下，PSRNNs 比其他常见的动态系统建模方法都有更好的表现。

May, 2017

深度循环神经网络结构预测中的状态别名研究

通过实验和分析，本论文研究了基于循环神经网络 (RNNs) 代理的表示学习，尤其是在政策梯度和基于价值的方法下对循环神经网络进行了训练。我们展示了当使用政策梯度进行训练时，循环神经网络往往无法学习到导致最优策略的状态表示。这一现象被称为状态别名问题，我们通过实验表明它在政策梯度下出现，同时在迷宫设置和更复杂的文本游戏上提出了训练 RNN 代理的建议。

Jun, 2019

学习循环策略网络的有限状态表示

本文介绍了一种新技术 ——Quantized Bottleneck Insertion，可以学习到具有限表示的递归神经网络，其结果是递归神经网络的量化表示，该表示可用于分析内存使用和行为的更好理解。通过将此方法应用于合成环境和六个 Atari 游戏，我们发现这些有限表示，在某些情况下令人惊讶地很小，完美的 Pong 策略仅使用 3 个离散内存状态和 10 个观测。此外，我们还展示了这些有限策略表示导致了较好的可解释性。

Nov, 2018

价值预测网络

本文提出了一种新型的深度强化学习架构 Value Prediction Network，将无模型和有模型强化学习方法集成到一个神经网络中，它通过学习一个动态模型，预测未来价值而非未来观测，实验结果表明，VPN 在需要细致计划但难以建立准确观测预测模型的随机环境中具有比无模型和有模型基线更多的优点，此外，VPN 在数个 Atari 游戏上表现优于 Deep Q-Network (DQN)，具有学习良好状态表示的潜力。

Jul, 2017

循环神经网络波函数

该论文演示了使用循环神经网络（RNN）作为量子哈密顿量的近似基态变分波函数来表示多体波函数，通过优化变分参数使用随机方法实现。并利用其自回归性质作为有效的物理估计器来计算各种相关物理量。

Feb, 2020

状态规则化递归神经网络

通过使用一种被称为状态规范化的机制来处理以前递归神经网络（RNNs）的不足，从而提高 RNNs 的状态转移动态分析和解释性，并将其应用于自动机抽取，自然语言处理和计算机视觉中。

Jan, 2019

用于视频未来预测的折叠循环神经网络

本研究介绍了双射门控循环单元，为计算机视觉中未来视频预测问题提供了一种有效的方法，能够使编码 / 解码器之间的状态共享并减少计算成本，达到了与最优方法相当的性能。

Dec, 2017

循环神经滤波器：学习独立的贝叶斯滤波步骤进行时间序列预测

本文介绍了一种新的循环自编码器结构 —— 递归神经过滤器（RNF），通过一系列编码器和解码器学习 Bayesian 滤波每一步的不同表示，应用于三个实际时间序列数据集上，证明了这种解耦表示不仅提高了一步预测的准确性，同时提供了可信的不确定度估计，而且通过分离编码器阶段促进了多步预测。

Jan, 2019