本文研究了 PAC 强化学习在富观察力下的计算复杂度,提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法,同时证明了在具有随机隐藏状态动态的情况下,已知样本有效算法 OLIVE 不能在 Oracle 模型中实现,通过几个示例表明了在这样一般的设置中可计算 PAC 强化学习的根本挑战。
Mar, 2018
本文研究了部分可观的强化学习问题,并提出了首个具有多项式边界的算法,用于处理一类重要的 POMDP 问题,该算法基于最近的方法学方法来估计潜在变量模型。
May, 2016
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Jun, 2022
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短期记忆对于这些环境的强化学习已经足够。
Feb, 2022
使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略,从而更高效地解决部分可观察的强化学习问题,该算法在实验中表现良好。
Apr, 2002
传统上,强化学习集中于学习状态相关策略以解决闭环最优控制问题;本文提出了开环强化学习范式,通过学习固定行动序列,引入了三种新算法:一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理,而非动态规划中的贝尔曼方程,我们提供了收敛性保证,并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。
May, 2024
该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程,并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况,并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性,引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题,并对其性质进行了深入分析。其次,采用线性函数逼近器和随机化方法,即场景方法和相关的概率可行性保证,为逆问题提供了 ε- 最优解。对于所需的近似精度,进一步讨论了样本复杂度。最后,针对只有有限一组专家示范和生成模型可供使用的更加现实的情况,给出了使用样本时产生的误差界限。
研究奖励免费强化学习框架,提出新的有效算法 SS+TP,通过探索和计划两个阶段,分别进行轨迹收集和任意奖励函数优化,达到对多个奖励函数的策略优化。
Oct, 2020
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018