- 函数空间中扩散桥的随机最优控制
扩展基于扩散的算法到函数空间,我们提出了一种适用于无限维空间的随机最优控制(SOC)理论。该理论通过引入 Doob 的 h - 变换,从 SOC 的视角推导并扩展至无限维空间,并提出了两个应用:无限维分布间的桥接学习和采样的生成模型。该方法 - 风险敏感随机最优控制的 Rao-Blackwellized Markovian Score Climbing
该论文介绍了一种新颖的方法,通过从条件粒子滤波器中抽取样本,将风险敏感的随机控制看作马尔科夫评分上升问题,提供了渐进无偏估计的梯度优化策略,避免了显式值函数学习,通过在随机动态系统的数值基准测试中展示其有效性,应用于学习神经非高斯反馈策略。
- 随机最优控制匹配
我们的研究引入了随机最优控制匹配(SOCM),一种基于迭代扩散优化(IDO)技术的随机最优控制方法,具有比现有方法更低的误差,并使用了路径重参数化技巧。
- 主动学习强化学习:一种随机最优控制方法
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性 - 随机线性系统的薛定谔桥缩减系数
对于给定的初始状态密度,施加控制扩散和截止约束的随机最优控制问题,通过固定点递归迭代数值求解 Schr"{o} dinger 桥问题,在经典和线性系统设置下广泛应用。本研究对与 Schr"{o} dinger 系统的收敛相关的收缩系数提供了 - 凸多阶段随机优化的数值方法
本文研究了在随机环境中涉及顺序决策的优化问题,主要集中于随机规划和随机最优控制建模方法,通过切割平面逼近和随机逼近类型的方法,有效解决了传统动态规划算法所面临的状态变量维度增加、计算复杂度指数级增长等问题,针对多阶段问题,提出了一种能够处理 - 全耦合 FBSDE 驱动的随机最优控制问题的深度学习方法
通过深度学习方法,提出了一种解决高维随机最优控制问题的算法,将问题转化为随机 Stackelberg 差分博弈并应用交叉优化方法,成功解决了投资 - 消费问题的数值实例。
- ICLR路径积分采样器:一种用于采样的随机控制方法
提出了一种基于 Schrödinger 桥问题的新算法 Path Integral Sampler (PIS),可以从未经规范化的概率密度函数中提取样本,其以随机最优控制问题的形式建模,其中控制意味着基于神经网络的不规则扩散过程,通过计算路 - 使用随机阻隔函数和深度前后向 SDE 的安全最优控制
该论文提出了一种新的随机最优控制和随机动态优化的公式,以确保状态和控制约束的安全性,通过前向 - 后向随机微分方程,随机屏障函数,可微凸优化和深度学习等方法,设计了一种神经网络架构用于安全轨迹优化,同时在三个系统上进行了仿真来展示该方法的有 - 随机复合方差约简梯度算法的样本复杂度改进
本文提出了一种新的随机组合减少方差的梯度算法来解决现有算法在算法设计中忽略凸性结构而导致的样本复杂度和实践问题,实验结果表明了该算法的有效性和效率。
- NIPS通过非平衡热力学对图上最优分层策略推断进行表征
该论文介绍了一种新的推断方法来构建状态空间层次结构,从而得到一种层次化的策略推断算法,用以逼近先前和最优策略之间在状态空间轨迹密度上的离散梯度流。
- 均场随机控制问题的 Bellman 方程和黏性解
本文探讨了 McKean-Vlasov 随机微分方程的随机最优控制问题,通过使用反馈控制,将问题重构为只有过程的边际分布的确定性控制问题,并证明了动态规划原则在其一般形式下成立。然后,我们利用随机微分方程解的可导性概念,推导出平均场随机控制 - ICML使用协方差矩阵适应的路径积分策略改进
该研究论文介绍了一种名为 PI2 的强化学习方法,此方法优化参数化政策来处理连续状态和动作问题,并将其与基于概率加权平均的其他方法进行比较,最终提出了一种名为 PI2-CMA 的新算法,其主要优势是自动确定探索噪声的大小。
- 风险敏感路径积分控制
本文介绍了基于路径积分方法的随机最优控制问题,重点考虑了风险敏感情况下产生的指数加权期望成本,同时针对非线性动态随机优化控制问题进行了探究,并展示了多模控制与风险敏感性的复杂交互作用。
- 一种基于增量采样的随机最优控制算法
本文提出了一种名为增量马尔可夫决策过程(iMDP)的算法,该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展,用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略,该算法通过状态空间的随机采样生成原问题的有限离 - 最优控制作为图推断模型的问题
文章利用 KL 最小化问题来表述非线性随机最优控制问题,通过将最优控制计算转化为推理计算,应用了近似推理方法以高效计算近似优化控制。通过实例,作者展示了近似推理方法的成功应用,在讨论 KL 控制方法与其他控制推理方法之间的联系。
- 非线性随机系统控制的线性理论
本文研究噪音在随机最优控制问题中的作用以及高效计算的问题,通过将一类非线性控制问题转换成路径积分形式,探讨噪音在其中的作用,并针对这个问题提出蒙特卡罗积分或拉普拉斯逼近等高维随机控制问题的解法。