随机控制中对错误系统模型的鲁棒性

Mar, 2018

随机控制中对错误系统模型的鲁棒性

Robustness to incorrect system models in stochastic control

Ali Devran Kara, Serdar Yüksel

TL;DR研究离散时间随机控制问题的连续性特性和最优控制策略的鲁棒性，在考虑测量模型及转移核函数的连续性等条件下，证明了最优成本可在弱收敛下实现连续性，且总变异下的预计诱发成本是鲁棒的，对基于经验学习的随机控制领域有积极意义。

Abstract

In stochastic control applications, typically only an ideal model (controlled transition kernel) is assumed and the control design is based on the given model, raising the problem of performance loss due to the mismatch between the assumed model and the actual model. Toward this end, w

stochastic control continuity properties robustness total variation empirical learning

发现论文，激发创造

连续状态空间中的分布可靠随机控制的统计学习

该研究论文介绍了一个分布鲁棒的随机控制范式，能够容纳对分布内可能的自适应敌对扰动的噪声进行考虑，在给定的模糊集合内。通过对两种敌对模型的研究，我们揭示了在不同的动态规划方程下的最优有限样本极小化率，以实现对连续状态下健壮价值函数的统一学习，考虑由 f_k - 散度和 Wasserstein 距离定义的模糊集合。最后，我们展示了我们的框架在各种真实世界环境中的适用性。

Jun, 2024

通过正式抽象实现非高斯噪声动态系统的鲁棒控制

该研究论文提出了一种新颖的控制器合成方法，它不需要任何明确表示噪声分布的方式，而是通过将控制系统抽象为捕捉噪声的有限状态模型，然后使用从场景方法中的工具来计算可能正确的限制，基于一些噪声的有限数量样本。通过缩小合成过程的复杂性，该方法在实际控制系统上的应用具有广泛的适用性。

Jan, 2023

随机系统的鲁棒性灵敏度分析

该研究探讨了一种最坏情况的方法来衡量随机系统性能分析中的模型误差敏感性，通过 Kullback-Leibler（KL）散度度量模型误差，并通过优化计算程序来计算最坏情况性能指标，通过创新的微小近似方法，得出了这些程序的最优值渐近展开式，展开式系数可以通过模拟计算，并从最坏情况模型的表示中派生而来，这些表示作为函数不动点方程组的定义。

Mar, 2013

Wasserstein 分布稳健随机控制：一种数据驱动的方法

研究了一个基于 Wasserstein 分布的鲁棒控制策略问题，提出了一个可计算的值迭代算法和策略迭代算法，并通过动态规划和 Kantorovich 对偶理论的分析，在保证置信水平不降低的情况下，构造了一个多阶段性能保证和最优分布鲁棒控制策略。

Dec, 2018

基于形式抽象的随机和不确定动态模型自动构造控制

自动化合成控制器，基于概率时间逻辑规范的随机动态模型，通过状态验证技术构建的 iMDP（带概率区间的马尔科夫决策过程），解决安全关键场景中面临的挑战。

Nov, 2023

粗粒度识别下鲁棒控制的非渐进分析

探讨了在粗略的近似下能够准确构建动态系统模型所需的样本数量与各种控制目标因性能降低而产生的权衡，给出了稳定线性时不变系统的噪声输入 / 输出样本数的上限，证明了这些需求低于先前旨在准确识别动态模型的需求，并阐述了不同物理输入约束如何影响样本复杂性，最后展示了分析如何适用于强健控制的已建立框架，证明了设计用于近似系统的控制器能够满足真实系统的性能目标。

Jul, 2017

概率不够用：针对存在认识不确定性的随机动态模型的形式控制器综合

本文介绍一种使用区间 Markov 决策过程的抽象方式，在连续状态的模型中捕捉随机噪声和不确定参数的 aleatoric 和 epistemic 不确定性，进行控制器的综合。经实验验证，考虑 epistemic 不确定性可以提高控制器的鲁棒性。

Oct, 2022

近似模型与鲁棒决策

本文综述了近期不同领域取得的进展，以解决基于概率模型进行的预测决策可能受到模型错误规定的影响。我们回顾了诊断技术，并提出了决策分析的形式化方法，特别是在模型错误规定的情况下。我们采用贝叶斯方法，以模型空间中模型扰动的稳定性量化模型错误规定下的最优决策，这已被应用于鲁棒控制、宏观经济学和金融数学领域。

Feb, 2014

随机信息结构和非马尔可夫环境下的 Q 学习

我们提出了一个收敛定理，研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代，特别是 Q 学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件，并将此定理的应用扩展到各种随机控制问题中。

Oct, 2023

基于数据驱动的带有符合推理的随机动态系统可达性分析

使用符合推断进行基于数据驱动的离散时间随机动态系统的可达性分析，将数据集转化为代理预测模型，通过符合推断量化预测模型的误差，从而提供概率可达性保证。该方法适用于复杂闭环动态难以使用符号模型建模的学习增强控制系统。

Sep, 2023