连续状态空间中的分布可靠随机控制的统计学习

Jun, 2024

连续状态空间中的分布可靠随机控制的统计学习

Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces

Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou

TL;DR该研究论文介绍了一个分布鲁棒的随机控制范式，能够容纳对分布内可能的自适应敌对扰动的噪声进行考虑，在给定的模糊集合内。通过对两种敌对模型的研究，我们揭示了在不同的动态规划方程下的最优有限样本极小化率，以实现对连续状态下健壮价值函数的统一学习，考虑由 f_k - 散度和 Wasserstein 距离定义的模糊集合。最后，我们展示了我们的框架在各种真实世界环境中的适用性。

Abstract

We explore the control of stochastic systems with potentially continuous state and action spaces, characterized by the state dynamics $X_{t+1} = f(X_t, A_t, W_t)$. Here, $X$, $A$, and $W$ represent the state, act

stochastic systems continuous state action spaces distributional shifts robust stochastic control

发现论文，激发创造

Wasserstein 分布稳健随机控制：一种数据驱动的方法

研究了一个基于 Wasserstein 分布的鲁棒控制策略问题，提出了一个可计算的值迭代算法和策略迭代算法，并通过动态规划和 Kantorovich 对偶理论的分析，在保证置信水平不降低的情况下，构造了一个多阶段性能保证和最优分布鲁棒控制策略。

Dec, 2018

大型状态空间下的分布鲁棒基于模型的强化学习

提出了一种基于高斯过程和最大方差缩减算法的模型基础方法，用于学习多输出名义转移动力学，克服了强化学习中的若干挑战，并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。

Sep, 2023

通过正式抽象实现非高斯噪声动态系统的鲁棒控制

该研究论文提出了一种新颖的控制器合成方法，它不需要任何明确表示噪声分布的方式，而是通过将控制系统抽象为捕捉噪声的有限状态模型，然后使用从场景方法中的工具来计算可能正确的限制，基于一些噪声的有限数量样本。通过缩小合成过程的复杂性，该方法在实际控制系统上的应用具有广泛的适用性。

Jan, 2023

使用 Wasserstein 距离的分布鲁棒方法实现遗憾最优控制

本文提出了一种基于分布鲁棒性的方法来控制线性离散动态系统，在随机加性干扰作用下具有二次成本。假设干扰过程的基础概率分布为未知的，但被认为位于给定的分布半径球中，用 Wasserstein 距离求得。在此框架中，设计了严格因果线性干扰反馈控制器来最小化最坏情况下期望遗憾。通过对最优运输问题的对偶理论建立，可将此遗憾最小化控制问题重新等价为一个可行的半定编程问题。该等效对偶公式还允许我们确定中心分布与最坏情况下分布之间的最坏情况下期望遗憾。

Apr, 2023

风险厌恶强化学习的分布式方法

我们提出了一种分布式方法，用于在风险规避马尔可夫决策过程中学习最优策略，该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现，利用了对应动态规划原理中嵌入的某些结构，使用深度神经网络逼近值函数的条件分布，避免了探索阶段的维度灾难，并使用随机选择的一系列模型参数探索了该方法的性能。

Feb, 2023

连续状态 - 动作非高斯系统的集中模型学习和规划

引入了一个针对具有连续状态和动作空间以及非高斯转移模型的随机域的模型学习和规划框架。该框架高效，因为只有在计划器需要它们时才估计局部模型；计划器集中于当前规划问题的最相关状态；计划器专注于信息最丰富和 / 或价值最高的动作。我们的理论分析显示了所提出方法的有效性和渐近最优性。在实验上，我们在模拟的多模式推动问题上展示了我们算法的有效性。

Jul, 2016

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

无限时间视角下基于部分观测的最坏情况控制与学习

本文研究了安全关键的物理系统所需的控制策略，通过建模系统中的不确定性和模型干扰，提出了一种近似控制和学习框架，并对其进行了数学分析和算法设计。

Mar, 2023

动作鲁棒性强化学习及其在连续控制中的应用

研究了如何在存在不确定性的情况下通过改进强化学习算法来实现机器人动作鲁棒性，以此应对干扰和突发情况，并探讨其潜在的正则化效果。

Jan, 2019