风险敏感路径积分控制
该论文介绍了一种新颖的方法,通过从条件粒子滤波器中抽取样本,将风险敏感的随机控制看作马尔科夫评分上升问题,提供了渐进无偏估计的梯度优化策略,避免了显式值函数学习,通过在随机动态系统的数值基准测试中展示其有效性,应用于学习神经非高斯反馈策略。
Dec, 2023
本文讨论了非线性动态系统的线性二次控制问题,并将其转化为线性方程。通过使用路径积分方法,解决了传统反向计算的问题,并给出了路径积分方法的有效计算方法,如 MC 抽样、Laplace 逼近和变分逼近。通过例子来说明了随机和确定性控制的区别以及噪声的对称性破坏现象的发生。
May, 2005
本文提出了一种广义风险测量的框架,应用加权规范空间研究了马尔科夫控制过程中的风险敏感性优化问题,并提出了新的贴现方案和 Lyapunov 稳定性条件。
Oct, 2011
本文研究噪音在随机最优控制问题中的作用以及高效计算的问题,通过将一类非线性控制问题转换成路径积分形式,探讨噪音在其中的作用,并针对这个问题提出蒙特卡罗积分或拉普拉斯逼近等高维随机控制问题的解法。
Nov, 2004
本文提出了利用广义路径积分控制公式计算状态相关反馈控制器来解决路径积分控制问题的方法,并阐述了控制成本和有效采样大小之间的关系。最优控制器提供了零方差估计。
Jun, 2014
提出了一种基于 Schrödinger 桥问题的新算法 Path Integral Sampler (PIS),可以从未经规范化的概率密度函数中提取样本,其以随机最优控制问题的形式建模,其中控制意味着基于神经网络的不规则扩散过程,通过计算路径积分的理论来抵消其控制器中的偏差,并在各种任务中表现出比其他现有方法更具优势。
Nov, 2021
本研究在复杂环境中研究了机器人交互问题,通过扩展路径积分控制的自由能公式中的样本空间,提出了一种嵌入不确定性的路径积分控制方法,为基于模型的机器人规划提供了鲁棒性,实验证明了其能够在不损失性能的情况下实时运行。
Jun, 2020
本研究针对马尔科夫决策过程中随机最短路径问题提出了一种基于条件风险价值优化的风险感知控制方法,并通过线性规划和价值迭代两种算法实现了精确而可靠的解决方案。实验结果表明该方法在多个中等规模的问题实例上是可行的。
Mar, 2022
该研究论文介绍了一种名为 PI2 的强化学习方法,此方法优化参数化政策来处理连续状态和动作问题,并将其与基于概率加权平均的其他方法进行比较,最终提出了一种名为 PI2-CMA 的新算法,其主要优势是自动确定探索噪声的大小。
Jun, 2012
文章利用 KL 最小化问题来表述非线性随机最优控制问题,通过将最优控制计算转化为推理计算,应用了近似推理方法以高效计算近似优化控制。通过实例,作者展示了近似推理方法的成功应用,在讨论 KL 控制方法与其他控制推理方法之间的联系。
Jan, 2009