- 基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的 - 控制置信成本
我们开发了一种考虑推断计算成本的随机控制方法,结合了有效编码和高效控制的概念。研究发现,代理人通过在后验概率相对精度上增加内部成本来权衡总效用和任务性能,从而实现有效控制。通过研究线性二次高斯控制,我们发现代理人在不同任务需求下转换为一系列 - 软约束薛定谔桥:一种随机控制方法
通过允许终端分布与 μ_T 不同,但惩罚两个分布之间的 Kullback-Leibler 散度,我们提出了一种软约束的 Schrödinger bridge(SSB)的最优控制方法,并且从理论上推导了其解决方案,表明最优控制过程的终端分布是 - 随机最优控制匹配
我们的研究引入了随机最优控制匹配(SOCM),一种基于迭代扩散优化(IDO)技术的随机最优控制方法,具有比现有方法更低的误差,并使用了路径重参数化技巧。
- ICML一种用于连续非马尔可夫随机控制问题的神经 RDE 方法
提出一种基于神经粗糙微分方程的新框架,用于解决非马尔可夫随机控制问题,通过演示控制过程作为神经粗糙微分方程的解的模型来展示控制 - 状态联合动力学如何通过一个未受控的增量神经粗糙微分方程进行管理,同时通过演示神经粗糙微分方程是随机不平滑路径 - $K$ 最临近重采样在随机控制中的非策略评估
该论文提出了一种新的 K 最近邻重采样程序,用于在具有连续状态 - 动作空间和系统固有随机性的环境中,通过模拟轨迹来解决反事实估计问题,该算法不需要优化,可以通过基于树的最近邻搜索和并行化实现,特别适用于随机控制环境。
- 状态相关噪声的高斯过程用于随机控制
该论文考虑了使用高斯过程学习动态系统的残差模型不确定性的随机控制框架,其中残差模型不确定性包括非线性函数和状态相关噪声,并提出了一种后验高斯过程来近似残差模型不确定性和一种先验高斯过程来解释状态相关噪声,这两种高斯过程相互依赖并使用迭代算法 - 去噪扩散模型和抽样器的表达能力注记
本论文探讨将随机控制方法运用于泛化的去噪扩散模型及样本生成中,并尝试将现有的神经网络近似方法应用于去噪扩散模型及样本生成中。
- 基于博弈论视角的多智能体强化学习概述
本研究提供了一个笔记,从博弈论的角度全面介绍了现代多代理强化学习技术的基础和最新发展,旨在为即将进入这个快速增长的领域的新研究人员和现有领域专家提供有关目前最先进的 MARL 技术的自包含评估,并根据最新进展确定新方向。
- 移动毫米波通信的鲁棒自适应波束跟踪
使用 ATSC 帧架构及基于随机控制机制的更新方法,使毫米波(mmWave)波束跟踪可以在最小的延迟和误差率下高度精确且可靠地实现。
- 具有潜态扩散的生成模型采样与推断的理论保证
本文介绍和研究了一类概率生成模型,其中潜在对象是有限时间间隔上的有限维扩散过程,观察变量是在扩散的终端点条件下绘制的。 通过随机控制的视角,我们为这种生成模型的采样和变分推断提供了统一的观点,并量化了基于扩散的生成模型的表现力。我们最后提出 - Wasserstein 分布稳健随机控制:一种数据驱动的方法
研究了一个基于 Wasserstein 分布的鲁棒控制策略问题,提出了一个可计算的值迭代算法和策略迭代算法,并通过动态规划和 Kantorovich 对偶理论的分析,在保证置信水平不降低的情况下,构造了一个多阶段性能保证和最优分布鲁棒控制策 - 随机控制中对错误系统模型的鲁棒性
研究离散时间随机控制问题的连续性特性和最优控制策略的鲁棒性,在考虑测量模型及转移核函数的连续性等条件下,证明了最优成本可在弱收敛下实现连续性,且总变异下的预计诱发成本是鲁棒的,对基于经验学习的随机控制领域有积极意义。
- 扩展均场控制问题:随机极值原理与转移视角
研究平均场随机控制问题的 Pontryagin 最大原理,推荐一种新的变分方法来解决这些控制问题,并展示了弱形式与路径空间上的最优传输之间的自然联系,启发了一种新的离散化方案。
- 物理系统学习和随机控制的高斯过程潜在力模型
本文主要探讨在包含未知输入信号的物理系统中的学习和随机控制问题,这些未知信号以具有一定参数协方差结构的高斯过程(GP)作为模型,得到的潜在力模型(LFMs)可以看作是包含基于物理原理和非参数 GP 模型部分的混合模型。我们简要介绍了这种模型 - 深度放松:用偏微分方程优化深度神经网络
通过与非线性偏微分方程的连接,将统计物理中的松弛技术重新解释为粘性哈密尔顿 - 雅各比偏微分方程的解,并利用随机控制理论证明改进的算法表现比随机梯度下降更好,在数学上分析了该算法的应用及众所周知的偏微分方程的规则性结果,并推导出实现算法中的 - 随机控制问题的深度学习逼近
通过蒙特卡洛采样的深度学习方法,将高维随机控制问题的时间依赖控制近似为前馈神经网络,用作控制问题的目标函数,经测试,该方法可以处理高维度问题并且具有令人满意的准确性。
- NIPS通过随机值梯度学习连续控制策略
本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观 - MM弱链式矩阵、策略迭代和脉冲控制
本研究探讨了与随机控制和脉冲控制相关的 Hamilton-Jacobi-Bellman 准变分不等式(HJBQVIs)的数字解法,提出了三种离散化方案并比较了其在不同实例中的表现。其中,直接控制的方案的表现较差,不推荐使用。
- 最优输运与 Schrödinger 桥之间的关系:随机控制视角
本文从随机控制角度重新审视了最优传输问题与 Schrödinger 桥问题之间的关系,并提出了一些新的发现和解法,特别是我们提出并解决了带先验的流体动力学版本的最优传输问题。