基于专家预测的无模型线性二次控制
我们提出了第一个计算效率高的算法,其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O(\sqrt{T})$ 遗憾度。
Feb, 2019
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用full-planning,而复杂度降为S,并通过实时动态规划进行了新颖的分析。
May, 2019
本文提出一种名为ExpCommit的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对ExpCommit提供稳定性保证及后悔上界。
Jan, 2020
本文介绍了Linear Quadratic Control系统的学习问题和非常高效的算法,算法的遗憾只随着决策步数的对数级别增加,并且当某些特定条件成立时可以得到更好的结果,但当条件不成立时,无法避免遗憾增长的平方根级别。
Feb, 2020
研究连续时间线性二次调节强化学习问题,提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法,并分析了它们的误差界限和实现可能性。
Jun, 2020
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
Jul, 2020
提出了RestartQ-UCB算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。
Oct, 2020
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为O(√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。
Jun, 2024
本研究解决了基于模型的强化学习在在线与离线设置中的悔恨与样本复杂度界限的问题。通过引入乐观与悲观规划程序,在简单的模型学习框架下,我们实现了无地平线和二阶界限的强悔恨分析。我们的算法简洁且标准,能够有效利用丰富的函数逼近能力,具有重要的理论与实际应用价值。
Aug, 2024