该研究论文研究了强化学习中选择正确的状态表示问题,提出了一种算法在不知道正确模型的情况下获得尽可能多的奖励。
Feb, 2013
本文提出了一种基于循环神经网络(RNN)的近似因果状态算法,该方法学习从POMDP中的历史动作和观察预测未来观察情况的因果状态表示。实验证明,所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题,并与之前的方法进行比较。
Jun, 2019
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短期记忆对于这些环境的强化学习已经足够。
Feb, 2022
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
提出了一种名为Embed to Control (ETC)的强化学习算法,通过学习观察和状态历史的最小但足够的表示来解决部分观测Markov决策过程(POMDP)中的样本复杂性问题,实现了表示学习和策略优化的桥梁,具有高效的样本复杂度,适用于具有低秩结构的POMDP问题。
May, 2022
本文提出了一种基于Q-learning和IoAlergia的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将RL与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度RL技术。
Jun, 2022
通过提出一种新的基于双线性Actor-Critic框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
本文研究部分可观测马尔可夫决策过程的表示学习,其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划,并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法,从而在计算复杂度上获得高效的采样复杂度。
Jun, 2023
在部分可观察环境中,学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性,并证明了强化学习的性能与未来观察的预测准确性密切相关。同时,该方法可以阻止高方差嘈杂信号对表征学习的影响,显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。
Feb, 2024
通过融合监督学习和无监督学习,部分监督强化学习(PSRL)框架能够提供更可解释的策略和丰富的潜在洞察力,从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。