本文研究了一种强化学习设置,其中学习者没有显式访问底层马尔可夫决策过程(MDP)的状态,而是可以访问将过去互动的历史映射到状态的多个模型,并改进了这种设置下已知的后悔边界,并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。
May, 2014
本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法,证明了 MAXQ-Q 学习算法在一定的条件下收敛,并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。
May, 1999
本文介绍了强化学习中抽象的理论,提供了符合需求的抽象函数的要求,并介绍了一组新算法和分析,旨在最大程度地减少有效强化学习的复杂性。
Mar, 2022
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
研究强化学习中探索和近似之间的相互作用,提出一种基于密度建模的方法来改善探索,探讨伪计数奖励在此方法中的应用,发现了在其应用中可能存在的过度或不足探索问题,并提出一种新的伪计数奖励来缓解这些问题。
Aug, 2018
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
用因果对等建模(CBM)方法在有因子的状态空间中学习动力学和奖励函数的因果关系,以得出最小的,任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用,实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外,得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率,并在所有任务中优于基线模型。
Jan, 2024
本文提出了一种基于循环神经网络(RNN)的近似因果状态算法,该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明,所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题,并与之前的方法进行比较。
Jun, 2019
通过学习抽象 MDP(Markov 决策过程)来提高智能体在多任务环境中的决策和学习效率。
Jun, 2024