强化学习中的状态表示选择
本文研究了一种强化学习设置,其中学习者没有显式访问底层马尔可夫决策过程(MDP)的状态,而是可以访问将过去互动的历史映射到状态的多个模型,并改进了这种设置下已知的后悔边界,并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。
May, 2014
The paper introduces a reinforcement learning-based method for model selection in the presence of changing circumstances, particularly in the context of portfolio management with rebalancing costs, demonstrating superior performance compared to hindsight-based model selection.
Jul, 2023
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023
研究在具有线性结构的有限时间马尔可夫决策过程(MDPs)中,状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色,提出了普遍跨越最优特征(UNISOFT)的概念,证明当给定的表示满足 UNISOFT 条件时,提出的算法达到恒定的遗憾。
Oct, 2021
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态 - 行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为 VAPOR,与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本 VAPOR 在性能上的优势。
Nov, 2023
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆向强化学习算法和模仿学习基准,该算法表现更好。
Oct, 2022
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用 full-planning,而复杂度降为 S,并通过实时动态规划进行了新颖的分析。
May, 2019