无限时间视角下基于部分观测的最坏情况控制与学习
本文研究了在部分观测状态的不确定系统中的离散决策问题,并通过开发信息状态和近似信息状态的概念,提出了一个可行的决策框架。我们使用这一概念定义了近似动态规划,通过输出数据进行学习,以达到有界性能的策略,最后提供了数值实验来说明这一结果在控制和强化学习中的应用。
Jan, 2023
该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题,其中高维过滤分布通过投影到参数化分布族进行了近似,结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上,包括队列系统和化学反应网络,验证了该方法的有效性。
Feb, 2024
本研究提出了一种分散式随机控制的普适模型,称之为部分历史共享信息结构。在该模型中,每一时刻控制器都要分享他们的部分观察历史和控制历史。基于所有控制器共同知晓的信息,将分散式问题从一个协调者的角度重构为等价的集中式问题,并提出了一种解决这个等价问题的方法。相较于已有的方法,这种方法是更简单、综合的,能够提供更好的结构性和动态规划方案。
Sep, 2012
研究在线控制未知动态的时变线性系统,在非随机控制模型下,通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界,其中 SLS、Youla 和线性反馈策略类被认为是常见的策略类之一。同时,我们给出了针对干扰响应策略类的高效算法,且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。
Feb, 2022
本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
Jan, 2020
该研究论文提出了一种新颖的控制器合成方法,它不需要任何明确表示噪声分布的方式,而是通过将控制系统抽象为捕捉噪声的有限状态模型,然后使用从场景方法中的工具来计算可能正确的限制,基于一些噪声的有限数量样本。通过缩小合成过程的复杂性,该方法在实际控制系统上的应用具有广泛的适用性。
Jan, 2023
研究了具有局部观测和概率性监督控制器的概率离散事件系统的监督控制问题,提出了概率性 P - 监督器的定义和概率可控性、概率可观性的概念,并给出了概率可控性和可观性的多项式验证算法,并介绍了概率可控和可观超语言的最小解决方案,附有若干例子进行讨论。
May, 2018
本研究提出了一种基于 POMDPs 的任意时间算法,通过在线性时态逻辑(LTL)清单约束条件下最大化满足概率来合成次优随机有限状态控制器(sFSCs),并通过机器人导航案例研究表明了该方法的有效性。
Jan, 2020
该研究论文介绍了一个分布鲁棒的随机控制范式,能够容纳对分布内可能的自适应敌对扰动的噪声进行考虑,在给定的模糊集合内。通过对两种敌对模型的研究,我们揭示了在不同的动态规划方程下的最优有限样本极小化率,以实现对连续状态下健壮价值函数的统一学习,考虑由 f_k - 散度和 Wasserstein 距离定义的模糊集合。最后,我们展示了我们的框架在各种真实世界环境中的适用性。
Jun, 2024
通过对有限数据情况下的渐近偏差与过拟合的权衡分析,本文探讨了在强化学习中的部分可观测性,通过较小的状态表示减少过拟合的风险,最终通过理论结论及实验结果验证了前述结论。
Sep, 2017