风险敏感路径积分控制

Mar, 2012

Risk Sensitive Path Integral Control

Bart van den Broek, Wim Wiegerinck, Hilbert Kappen

TL;DR本文介绍了基于路径积分方法的随机最优控制问题，重点考虑了风险敏感情况下产生的指数加权期望成本，同时针对非线性动态随机优化控制问题进行了探究，并展示了多模控制与风险敏感性的复杂交互作用。

Abstract

Recently path integral methods have been developed for stochastic optimal control for a wide class of models with non-linear dynamics in continuous space-time. →

path integral methods stochastic optimal control risk sensitivity non-linear dynamics exponentially weighted cost-to-go

发现论文，激发创造

风险敏感随机最优控制的 Rao-Blackwellized Markovian Score Climbing

该论文介绍了一种新颖的方法，通过从条件粒子滤波器中抽取样本，将风险敏感的随机控制看作马尔科夫评分上升问题，提供了渐进无偏估计的梯度优化策略，避免了显式值函数学习，通过在随机动态系统的数值基准测试中展示其有效性，应用于学习神经非高斯反馈策略。

Dec, 2023

最优控制理论的路径积分和对称性破缺

本文讨论了非线性动态系统的线性二次控制问题，并将其转化为线性方程。通过使用路径积分方法，解决了传统反向计算的问题，并给出了路径积分方法的有效计算方法，如 MC 抽样、Laplace 逼近和变分逼近。通过例子来说明了随机和确定性控制的区别以及噪声的对称性破坏现象的发生。

May, 2005

风险敏感的 Markov 控制过程

本文提出了一种广义风险测量的框架，应用加权规范空间研究了马尔科夫控制过程中的风险敏感性优化问题，并提出了新的贴现方案和 Lyapunov 稳定性条件。

Oct, 2011

非线性随机系统控制的线性理论

本文研究噪音在随机最优控制问题中的作用以及高效计算的问题，通过将一类非线性控制问题转换成路径积分形式，探讨噪音在其中的作用，并针对这个问题提出蒙特卡罗积分或拉普拉斯逼近等高维随机控制问题的解法。

Nov, 2004

路径积分控制与状态依赖反馈

本文提出了利用广义路径积分控制公式计算状态相关反馈控制器来解决路径积分控制问题的方法，并阐述了控制成本和有效采样大小之间的关系。最优控制器提供了零方差估计。

Jun, 2014

路径积分采样器：一种用于采样的随机控制方法

提出了一种基于 Schrödinger 桥问题的新算法 Path Integral Sampler (PIS)，可以从未经规范化的概率密度函数中提取样本，其以随机最优控制问题的形式建模，其中控制意味着基于神经网络的不规则扩散过程，通过计算路径积分的理论来抵消其控制器中的偏差，并在各种任务中表现出比其他现有方法更具优势。

Nov, 2021

路径积分控制下参数不确定性的基于模型的泛化

本研究在复杂环境中研究了机器人交互问题，通过扩展路径积分控制的自由能公式中的样本空间，提出了一种嵌入不确定性的路径积分控制方法，为基于模型的机器人规划提供了鲁棒性，实验证明了其能够在不损失性能的情况下实时运行。

Jun, 2020

基于风险的随机最短路径

本研究针对马尔科夫决策过程中随机最短路径问题提出了一种基于条件风险价值优化的风险感知控制方法，并通过线性规划和价值迭代两种算法实现了精确而可靠的解决方案。实验结果表明该方法在多个中等规模的问题实例上是可行的。

Mar, 2022

使用协方差矩阵适应的路径积分策略改进

该研究论文介绍了一种名为 PI2 的强化学习方法，此方法优化参数化政策来处理连续状态和动作问题，并将其与基于概率加权平均的其他方法进行比较，最终提出了一种名为 PI2-CMA 的新算法，其主要优势是自动确定探索噪声的大小。

Jun, 2012

最优控制作为图推断模型的问题

文章利用 KL 最小化问题来表述非线性随机最优控制问题，通过将最优控制计算转化为推理计算，应用了近似推理方法以高效计算近似优化控制。通过实例，作者展示了近似推理方法的成功应用，在讨论 KL 控制方法与其他控制推理方法之间的联系。

Jan, 2009