使用前向 - 后向 SDE 学习深度随机最优控制策略

Feb, 2019

使用前向 - 后向 SDE 学习深度随机最优控制策略

Learning Deep Stochastic Optimal Control Policies using Forward-Backward SDEs

Marcus Pereira, Ziyi Wang, Ioannis Exarchos, Evangelos A. Theodorou

TL;DR本文提出了一种基于非线性随机最优控制理论、应用数学和机器学习的不确定性决策制定新方法。我们开展了一项控制框架的研究，旨在解决机器人和自主决策问题中的不确定性，并提出了一种深度神经网络架构用于随机控制。在仿真非线性系统中，我们研究了所提算法的性能和可扩展性，并讨论了未来的研究方向及其对机器人技术的影响。

Abstract

In this paper we propose a new methodology for decision-making under uncertainty using recent advancements in the areas of nonlinear stochastic optimal control theory, applied mathematics, and machine learning. G

decision-making nonlinear stochastic optimal control theory machine learning stochastic systems robotics

发现论文，激发创造

使用随机阻隔函数和深度前后向 SDE 的安全最优控制

该论文提出了一种新的随机最优控制和随机动态优化的公式，以确保状态和控制约束的安全性，通过前向 - 后向随机微分方程，随机屏障函数，可微凸优化和深度学习等方法，设计了一种神经网络架构用于安全轨迹优化，同时在三个系统上进行了仿真来展示该方法的有效性。

Sep, 2020

全耦合 FBSDE 驱动的随机最优控制问题的深度学习方法

通过深度学习方法，提出了一种解决高维随机最优控制问题的算法，将问题转化为随机 Stackelberg 差分博弈并应用交叉优化方法，成功解决了投资 - 消费问题的数值实例。

Apr, 2022

如何从三分钟数据中学习和泛化：物理约束和不确定性感知的神经随机微分方程

本文提出了一种使用神经随机微分方程学习控制动力学模型的框架和算法，能够构建模型预测控制算法以及模型基的增强学习领域中的仿真器，在模拟机器人系统中得到良好的应用。

Jun, 2023

随机控制问题的深度学习逼近

通过蒙特卡洛采样的深度学习方法，将高维随机控制问题的时间依赖控制近似为前馈神经网络，用作控制问题的目标函数，经测试，该方法可以处理高维度问题并且具有令人满意的准确性。

Nov, 2016

深度学习作为最优控制问题：模型与数值方法

本文探讨了深度学习神经网络作为最优控制问题的离散化，提出了一类算法来解决离散最优控制问题，并探讨了在时间离散化方面的延伸。

Apr, 2019

基于深度学习的高维抛物型偏微分方程和反向随机微分方程数值解法

该论文提出了一种基于强化学习和神经网络的算法用于解决高维情况下的偏微分方程和反向随机微分方程等数学问题，并在物理和金融学领域的各种非线性情况下进行了测试和优化。

Jun, 2017

一种基于反向微分的深度学习算法求解高维非线性反向随机微分方程

提出了一种基于反向差分深度学习的新型算法，用于解决高维非线性反向随机微分方程问题，并通过 Malliavin 微积分将问题重构为差分深度学习问题，并使用 Euler-Maruyama 方法对积分进行离散化，通过优化损失函数来对 DNN 参数进行反向优化，在理论和实验上证明了该算法的高效性。

Apr, 2024

深度学习理论综述：最优控制与动态系统视角

本文基于动态系统和最优控制的视角，将现有的深度学习理论框架进行整合，并用随机动态的优化算法作为控制器，为超参数调整提供了一个基于原则的方法。

Aug, 2019

通过随机值梯度学习连续控制策略

本文提出了一种使用反向传播学习连续控制策略的统一框架，并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数，来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型，但只需要来自环境的观察而不是模型预测轨迹的观察，最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题，然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG（1）显示了在连续领域同时学习模型，价值函数和策略的有效性。

Oct, 2015

深度神经网络的选择动态

本文介绍了一种基于偏微分方程框架的深度残差神经网络和相关学习问题的方法，并研究了前向问题的稳定性和最优性，同时探究了神经网络、PDE 理论、变分分析、优化控制和深度学习之间的算法和理论联系。

May, 2019