递归 Q 学习的近似信息状态收敛分析

Jun, 2023

递归 Q 学习的近似信息状态收敛分析

Approximate information state based convergence analysis of recurrent Q-learning

Erfan Seyedsalehi, Nima Akbarzadeh, Amit Sinha, Aditya Mahajan

TL;DR该论文研究了强化学习算法中的一种非马尔可夫过程，提出了一种基于近似信息状态 (AIS) 的改进方法，展示了其比基线更好的表现和与 AIS 表示相关的性能变化。

Abstract

In spite of the large literature on reinforcement learning (RL) algorithms for partially observable markov decision processes (POMDPs), a complete theoretical understanding is still lacking. In a partially observ

reinforcement learning partially observable markov decision processes recurrent q-learning approximate information state ais losses

发现论文，激发创造

在强化学习中选择近似最优的状态表示

本文研究了一种强化学习设置，其中学习者没有显式访问底层马尔可夫决策过程（MDP）的状态，而是可以访问将过去互动的历史映射到状态的多个模型，并改进了这种设置下已知的后悔边界，并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。

May, 2014

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

批量强化学习在部分观测下的过拟合和渐进偏差

通过对有限数据情况下的渐近偏差与过拟合的权衡分析，本文探讨了在强化学习中的部分可观测性，通过较小的状态表示减少过拟合的风险，最终通过理论结论及实验结果验证了前述结论。

Sep, 2017

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023

深度循环神经网络结构预测中的状态别名研究

通过实验和分析，本论文研究了基于循环神经网络 (RNNs) 代理的表示学习，尤其是在政策梯度和基于价值的方法下对循环神经网络进行了训练。我们展示了当使用政策梯度进行训练时，循环神经网络往往无法学习到导致最优策略的状态表示。这一现象被称为状态别名问题，我们通过实验表明它在政策梯度下出现，同时在迷宫设置和更复杂的文本游戏上提出了训练 RNN 代理的建议。

Jun, 2019

PAC 强化学习用于预测状态表示

本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Jul, 2022

学习部分可观测环境的因果状态表示

本文提出了一种基于循环神经网络（RNN）的近似因果状态算法，该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明，所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题，并与之前的方法进行比较。

Jun, 2019

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法，同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023