模型基础的强化学习是控制未知系统有效的方法,本文聚焦于具有非线性参数依赖的模型,并展示了适用于一类非线性动力学问题的主动学习算法的有限样本分析。
Apr, 2024
本文对于一种学习控制策略进行了系统分析,该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本,我们提出了一种基于本地线性模型的算法,在重要的问题参数上获得了多项式的样本复杂度,并通过合成本地稳定增益,克服了问题时间影响的指数依赖性,我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。
May, 2023
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
Jul, 2020
本论文介绍了一种基于最优试验设计的非线性动力学探索算法 FLEX,其策略最大化下一步的信息并具有适应性,可与通用参数学习模型兼容且需要最少的资源,在不同环境下进行测试并证明其性能与计算成本低。
Apr, 2023
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定 ODE 方法控制 Riccati 方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Jan, 2020
通过提出一种主动学习的方法,该方法不断进行轨迹规划,轨迹跟踪和重新估计系统,并展示了该方法以参数速率估计非线性动态系统,类似于标准线性回归的统计速率。
Jun, 2020
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。
Jan, 2022
本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024