结构化强化学习的探索
在稀疏线性马尔可夫决策过程中,通过引入一种新的算法 - Lasso fitted Q-iteration, 通过一个具有一定条件的数据策略,以几乎无维度代价实现对在线强化学习的降低,但线性后悔在常用政策情况下仍然无法避免。
Nov, 2020
为了解决在连续状态和 / 或动作空间中得到强化学习(RL)无后悔保证仍然是该领域的主要挑战之一,本论文引入了一种新的结构性假设,即 $ u-$ 平滑性,它概括了迄今已提出的大多数设置(如线性 MDPs 和 Lipschitz MDPs),我们提出了两种算法,在 $ u-$ 平滑 MDPs 中对后悔进行最小化,这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上,第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性,但计算效率低,而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别,但适用于较小的问题类别,经分析它们的后悔性能,我们将结果与 RL 理论的最新成果进行了比较,表明我们的算法达到了最佳保证。
Feb, 2024
通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
本论文介绍了一种基于特性映射的新算法,能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间,并且证明了该算法在一些强化学习的问题中,不需要访问生成模型就能取得多项式的最优后悔值,且总体上是近乎最优的。
Jun, 2020
研究在具有线性结构的有限时间马尔可夫决策过程(MDPs)中,状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色,提出了普遍跨越最优特征(UNISOFT)的概念,证明当给定的表示满足 UNISOFT 条件时,提出的算法达到恒定的遗憾。
Oct, 2021
本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。
Mar, 2018
本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程,并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。
Nov, 2019
本文研究了有限时间 MDPs 中探索的最优性问题,提出了一种基于值迭代的乐观算法,其探索奖励基于下一个状态的经验值的变化量,通过使用集中不等式提高算法的可伸缩性,取得了优于先前最佳算法的研究成果,可以实现与已知理论下限相匹配的后悔度。
Mar, 2017
本文研究学习优化未知马尔可夫决策过程问题,并通过参数化已知函数类来获得标度为系统维度而非基数的遗憾界,并提出了一种简单而计算高效的后验采样算法(PSRL)来满足这些界。
Jun, 2014