- 基于潜空间目标的最优控制的深度强化学习行为模式切换
利用最优控制在深度强化学习策略的潜在空间中进行优化,识别并切换行为模式,结果表明该方法能够使策略产生所需的行为模式。
- 关于在训练 ResNets 中交叉熵损失的耗散性
从最优控制的角度来看,研究了 ResNets 和神经 ODE 的训练方法,并提出了针对分类问题的一种耗散式训练方法,在阶段成本中引入交叉熵的一种变体作为正则化项。基于训练的耗散式方法,证明了经过训练的 ResNet 具有转矩现象。通过对两个 - 基于深度强化学习与可微 L0 稀疏多项式策略的参数化偏微分方程控制
通过字典学习和可微分 L0 正则化,我们提出了一种稀疏、稳健且可解释的参数化偏微分方程控制策略,优于基线的深度神经网络驱动强化学习策略,并能够推导出解释性的优化控制规律的方程,并在参数化 Kuramoto-Sivashinsky 和对流扩散 - 强化学习和最优控制中价值函数的连续性和光滑性
价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标,研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限,并证明了在对底层系统有弱假设的情况下,价值函数总是 H"older 连续的 - 线性二次控制中策略梯度的隐式偏见:对未观测初始化状态的外推
本文研究了强化学习中策略梯度的内隐偏差,发现其对于训练过的初始状态的外推程度取决于系统在这些初始状态下的探索程度。通过理论和实验证实了该结论,并推测通过开发针对初始状态的有信息选择方法,可以显著改进现实世界的最优控制问题。
- 非线性系统的安全保证探索
使用最优控制提出新的安全保证的探索框架,其中包括对于非线性系统的有限时间样本复杂度边界下的保证的探索,具有任意高概率的可靠性和安全性,在复杂的非线性动态和未知领域的许多实际情景中具备一般性和适用性。
- 多智能体强化学习:综述
该论文调查了多智能体系统中学习最优控制的复杂性,旨在深入理解多智能体应用的机遇和挑战,为研究人员和从业者提供有价值的观点,以促进该领域的发展。
- 神经时间反演广义瑞克蒂方程
本文介绍了一种新颖的基于神经网络的最优控制方法,该方法旨在通过在时间上前进来实现最优控制。神经网络不仅用于实施状态动态,还用于估计共轭变量。通过引入一种新的局部策略,即时间反转的广义 Riccati 方程,来确定后一网络的参数。通过讨论一系 - KEEC: 嵌入式控制的等变几何
该论文研究了表示学习如何在未知和复杂的动态系统中实现最优控制,尤其是在混沌和非线性系统中,而不依赖于先前对系统动态的领域知识。研究提出了一种与动力系统相关的等变几何的核心思想,在这个对应的几何空间内进行最优控制,通过学习、嵌入轨迹和利用微分 - 优化控制学习问题中隐式微分的再探
本研究提出了一种使用隐式函数定理(IFT)来区分非凸约束离散时间最优控制(COC)问题中的最优轨迹的新方法,该方法直接评估从应用变量消除到 Lagrange 乘数项的矩阵方程,使得轨迹导数与时间步数呈线性关系,具有易于并行化处理、与模型大小 - 基于无网格可微编程与数据驱动策略的带偏微分方程约束最优控制比较
基于径向基函数的通用无网格可微分偏微分方程求解器对 DAL、PINN 和 DP 进行了全面比较,并发现 DP 在 Laplace 和 Navier-Stokes 方程下具有极高的效果,产生最精确的梯度,即使 DAL 失败和 PINN 困难时 - 相当好的控制:何时近似解法比近似模型更好
现有的最优控制方法在处理真实系统中常遇到的复杂性(包括维度、过程误差、模型偏差和数据异质性)时遇到困难。最优控制方法通常寻求简化模型以适应,但何时适用于近似的、简化的模型的最优解胜过适用于更准确的模型的近似解尚未得到充分回答。深度强化学习( - 多类流体排队网络的最优控制:一种机器学习方法
我们提出了一种机器学习方法来解决多类流体排队网络(MFQNETs)的最优控制问题,并提供了明确和深入的控制策略。我们证明了 MFQNET 控制问题存在一种阈值类型的最优策略,其中阈值曲线是通过原点的超平面。我们使用具有超平面分割的最优分类树 - MM非累计目标的强化学习
针对优化问题目标函数不能直接作为奖励和累计的情况,提出了一种基于 Bellman 最优条件下广义 Bellman 更新算法,其中使用一种广义操作代替原来 Bellman 更新规则中的求和操作。
- 自主海洋养殖中最大化海藻生长的动态规划方法:应对不确定海洋洋流的未操纵系统导航
利用动态规划优化控制来利用海流控制海藻生长,可实现在真实世界条件下通过低功率推进和优化控制实现漂浮海藻场的增强生长。
- 超越动态规划
本文提出评分生命周期规划作为一个新的理论方法,它能够直接从给定状态计算出无限时间的最优动作序列,解决了强化学习中的一些问题,并在非线性最优控制方面取得了良好的效果。
- 基于模型的强化学习中的信息 POMDP:利用额外信息
本文使用 POMDP 进行交互学习,并引入了信息学习的范例,提出了学习充分统计来实现最优控制的目标,并通过新提出的环境模型进行学习,最后在 Dreamer 算法中证明了这种方法的有效性和简单性,建议在模型为基础的 RL 的学习中系统考虑未来 - 计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
- DoMo-AC: 双重多步骤离线 Actor-Critic 算法
介绍了一种新方法 doubly multi-step off-policy VI (DoMo-VI) 和其实例 doubly multi-step off-policy actor-critic (DoMo-AC),通过结合 policy - 强化学习和基于模型的控制结合:使用按需最优控制学习多功能四足动态步态
本文提出了一种结合基于模型的最优控制与强化学习的动态、鲁棒的腿式 locomotion 的多功能控制方法;该方法成功地学习了控制策略,能够在模拟和硬件实验中生成不同的四足步态模式并保持稳定,并演示了该方法对于不太平的地形的适应性,无需过多的