开放问题:基于核强化学习的次优遗憾界
本文介绍了一种将KBRL转化为实用强化学习工具的算法:基于核的随机分解(KBSF)。KBSF利用一种简单的思路将KBRL模型中的信息压缩为固定大小的模型,从而实现线性的计算时间复杂度并且可以在离线和在线环境中应用于大规模问题。
Jul, 2014
研究了采用非参数高斯过程先验的UCRL和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题,在频率设置下,通过对核函数诱导的函数的再生核希尔伯特空间的真实MDP的转移和奖励函数的成员进行变异,研究了这些算法的后悔边界问题,并突出了转移和奖励函数对学习性能的影响。
May, 2018
MatrixRL是一种在线强化学习算法,可以通过学习概率转换模型的低维表示来缓解维度性的问题,同时可以平衡探索和开发之间的权衡。此算法具有接近于时间$T$和维度$d$(或$ ilde{d}$)稳定性的可能性。
May, 2019
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用full-planning,而复杂度降为S,并通过实时动态规划进行了新颖的分析。
May, 2019
本文提出了一种基于核变量的乐观算法Kernel-UCBVI,以及使用平滑核估计MDP奖励和转移的方法,以在探索和开发之间有效平衡,从而解决了有限时间内强化学习中的探索与开发困境。在连续MDP应用中,本文通过实验验证了该方法。
Apr, 2020
本研究基于鲁棒Catoni平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性MDP设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
针对使用核回归时的强化学习问题,我们提出了一种乐观性的改进最小二乘法值迭代方法,我们证明了其在一般情况下具有一阶最优遗憾保证,其结果比现有技术有显着的多项式改进。
Jun, 2023
通过提出UCRL-WVTR算法,解决强化学习中长期规划问题;该算法实现了无视时间限制和依赖实例的特点,且具有计算效率;算法设计和细致分析基于函数近似,达到了无时间限制、依赖实例和尖锐后悔界限的目标;理论研究得到了大量的实验验证。
Dec, 2023
在这份研究论文中,通过系统研究了强化学习(Reinforcement Learning)在约束条件下的模型方法和无模型方法,着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法,同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时,还探讨了在弱通信随机决策过程中的结果,扩大了研究结果的适用范围。
Jun, 2024