最优控制作为图推断模型的问题

Jan, 2009

Optimal control as a graphical model inference problem

B. Kappen, V. Gomez, M. Opper

TL;DR文章利用 KL 最小化问题来表述非线性随机最优控制问题，通过将最优控制计算转化为推理计算，应用了近似推理方法以高效计算近似优化控制。通过实例，作者展示了近似推理方法的成功应用，在讨论 KL 控制方法与其他控制推理方法之间的联系。

Abstract

We reformulate a class of non-linear stochastic optimal control problems introduced by Todorov (2007) as a Kullback-Leibler (KL) minimization problem. As a result, the optimal control computation reduces to an inference computation and →

stochastic optimal control kullback-leibler minimization approximate inference path integral control method multi-agent cooperative game

发现论文，激发创造

强化学习与控制的概率推断：教程与综述

该研究介绍了一种基于最大熵的强化学习或最优控制方法，该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断，并探讨了相关算法和未来研究方向。

May, 2018

控制置信成本

我们开发了一种考虑推断计算成本的随机控制方法，结合了有效编码和高效控制的概念。研究发现，代理人通过在后验概率相对精度上增加内部成本来权衡总效用和任务性能，从而实现有效控制。通过研究线性二次高斯控制，我们发现代理人在不同任务需求下转换为一系列与旋转变换相关的次最优推断策略，每个策略都对世界的稳定性估计存在误差。这项工作为大脑和机器在高效但受计算限制的控制方面提供了新的合理计算基础。

Jun, 2024

非线性随机系统控制的线性理论

本文研究噪音在随机最优控制问题中的作用以及高效计算的问题，通过将一类非线性控制问题转换成路径积分形式，探讨噪音在其中的作用，并针对这个问题提出蒙特卡罗积分或拉普拉斯逼近等高维随机控制问题的解法。

Nov, 2004

非线性、非平稳和随机系统的凸数据驱动逆最优控制

研究了有限时间内的逆控制问题，提出了一种能够从观测中推断出代理行为驱动成本的成本估计方法，并将结果转化为了算法过程，并通过实验验证了方法的有效性。

Jun, 2023

风险敏感随机最优控制的 Rao-Blackwellized Markovian Score Climbing

该论文介绍了一种新颖的方法，通过从条件粒子滤波器中抽取样本，将风险敏感的随机控制看作马尔科夫评分上升问题，提供了渐进无偏估计的梯度优化策略，避免了显式值函数学习，通过在随机动态系统的数值基准测试中展示其有效性，应用于学习神经非高斯反馈策略。

Dec, 2023

随机控制的主动推断

研究指出，由于无法充分建模随机转换动态，特别是在计划期间评估广泛的策略空间时，计算实现大多受限于低维确定性设置。最近的进展提出了一种修改的规划算法，我们在此基础上评估了主动推理在随机控制环境中的效用，结果表明与强化学习相比，无论在确定性还是随机性环境中使用主动推理都具有优势。

Aug, 2021

具有局部最优示例的连续逆优化控制

本文介绍了一种适用于大规模连续任务的概率反向最优控制算法，通过使用奖励函数的局部估计值，该方法可以学习来自非全局最优演示的例子，并消除全局最优的假设。

Jun, 2012

最优控制理论的路径积分和对称性破缺

本文讨论了非线性动态系统的线性二次控制问题，并将其转化为线性方程。通过使用路径积分方法，解决了传统反向计算的问题，并给出了路径积分方法的有效计算方法，如 MC 抽样、Laplace 逼近和变分逼近。通过例子来说明了随机和确定性控制的区别以及噪声的对称性破坏现象的发生。

May, 2005

非随机控制问题

该研究提出了一种针对未知线性动态系统进行控制的方法，能够对抗敌意干扰和对抗凸损失功能，通过衡量后效性的最佳线性策略，实现更高效的算法，并在此设定下保证次线性的遗憾边界 T^{2/3}。

Nov, 2019

一阶优化方法的控制解释

本文提出使用控制解释方法分析大规模优化与机器学习中的一阶迭代优化方法，建立起优化算法的收敛分析与互补灵敏性函数输入输出增益计算之间的联系，并探讨将经典控制合成工具应用于优化算法设计的可能性。

Mar, 2017