强化学习中的观察器 - 反馈 - 前馈控制结构

Apr, 2023

强化学习中的观察器 - 反馈 - 前馈控制结构

Observer-Feedback-Feedforward Controller Structures in Reinforcement Learning

Ruoqi Zhang, Per Mattson, Torbjörn Wigren

TL;DR本文提出使用结构化神经网络进行基于强化学习的非线性自适应控制，聚焦于部分可观测系统和前馈结构，将观测器动态建模为循环神经网络，采用标准网络用于控制器。这种结构化方法在降低计算复杂性的同时，提供了可理解的控制结构，并在模拟中得到了显著的训练速度提升。

Abstract

The paper proposes the use of structured neural networks for reinforcement learning based nonlinear adaptive control. The focus is on partially observable systems, with separate neural networks for the state and

structured neural networks reinforcement learning adaptive control partially observable systems feedforward structure

发现论文，激发创造

深度强化学习的结构控制网络

本文提出了一种名为 Structured Control Net 的新型神经网络架构，将通用的 MLP 拆分为非线性控制模块和线性控制模块，以利用线性和非线性策略的两者优点并改善训练样本效率、最终奖励和学习策略的泛化能力。该结构在来自 OpenAI MuJoCo、Roboschool、Atari 和自定义的 2D 城市驾驶环境的竞争性模拟测试中有竞争力的结果，并具有将特定问题先验导入网络架构来改进广泛控制任务的潜力。

Feb, 2018

合理神经网络控制器

本文研究了使用合理神经网络控制理论，针对神经反馈环的鲁棒性问题，设计了合理激活函数，并构建了一个内在可凸性结构的合理神经网络，通过对 Sum of Squares 可行性测试进行优化，成功实现了对具有非线性噪声和参数不确定性植物的神经反馈环的稳定化控制

Jul, 2023

基于结构化深度神经网络的拉格朗日系统反馈轨迹跟踪控制

本研究提出了一种基于深度神经网络的控制器，用于拉格朗日系统的轨迹跟踪控制，并通过适当设计神经网络结构来确保任何兼容的神经网络参数下的闭环稳定性，进一步优化神经网络参数可实现改进的控制性能。同时，在系统模型未知的情况下，通过改进的拉格朗日神经网络结构学习系统动力学并设计控制器，在模型逼近误差和外部干扰存在时仍可保证闭环稳定性和跟踪控制性能，并通过仿真验证了该方法的有效性。

Mar, 2024

一种用于高效合成和验证的基于 Lyapunov 稳定性的神经控制的状态和输出反馈的新方法

学习型神经网络控制策略在机器人学和控制领域的广泛任务中显示出令人印象深刻的实证性能，然而，对于具有非线性动力系统的神经网络控制器而言，关于吸引域（ROA）内的 Lyapunov 稳定性保证是具有挑战性的，并且现有的大多数方法都依赖于昂贵的求解器，例如 SOS、MIP 或 SMT。本文提出了一种新的框架，利用快速经验性推翻和战略正则化来学习具有 Lyapunov 证明的 NN 控制器。

Apr, 2024

探索深度和循环结构用于最优控制

本文研究了多层神经网络在控制方面的应用，特别是在连续高维动作任务中，通过强化学习训练后实现了控制策略，结果表明可以成功训练具有成千上万个参数的神经网络控制器，并比较了各种不同结构。文章讨论了这一问题与以往有监督知觉任务的区别，呈现了实验结果，并讨论了将深度学习技术应用于控制问题优化的未来方向。

Nov, 2013

利用神经网络进行连续时间系统辨识：模型结构和拟合标准

本文提出了一种基于状态空间模型的、定制化神经模型结构及两种自定义拟合标准，通过优化隐藏状态与神经网络参数以最小化测量输出和估计输出之间的差异，同时保证优化状态序列与估计系统动态一致，从而证明了该方法的有效性，进而在三个案例研究中应用于系统辨识基准测试。

Jun, 2020

强化学习的鲁棒非线性设定点控制

探讨三种方法来改进强化学习方法以支持高度非线性的设定点控制问题：1）利用先验反馈控制器支持幅度探索；2）使用积分误差；3）模型集训练。这些方法的组合可导致更高效的训练和更健壮的设定点控制器，可直接应用于真实世界中的非线性系统。

Apr, 2023

深度强化学习控制稳定性的模块化框架

本文提出了一种基于深度强化学习优势和 Youla-Kucera 参数化的稳定性保证相结合的反馈控制器设计框架，并采用基于数据驱动内部模型的替代 Youla-Kucera 参数化方法。使用神经网络表示参数化一组非线性稳定算子，实现了与标准深度学习库的无缝集成，并在两罐系统的真实模拟中展示了这种方法。

Apr, 2023

神经反馈回路的可达性分析

本研究提出了一种用于神经网络控制的闭环系统的可触及性分析的凸优化框架，通过新的输入集分割技术，该框架大大减少了紧密间隔，从而显著提高了计算速度。该方法还提供了一种新的用于反向可达性分析的算法，以确保系统从某个状态达到目标状态。数值实验表明，与最先进的方法相比，该方法在更短的计算时间内具有更少的保守性，能够处理各种难以处理的系统，例如具有非线性动力学和不确定性源的系统。

Aug, 2021

基于神经网络的混合系统辨识方法

我们考虑从有限数量的（状态 - 输入）- 后继状态数据点中设计一种基于机器学习的未知动态系统模型的问题，以便获得的模型也适用于最优控制设计。我们提出了一种特定的神经网络（NN）结构，其产生具有分段仿射动力学的混合系统，对网络参数具有可微性，从而使得能够使用基于导数的训练过程。我们展示了对 NN 权重的精心选择产生具有结构特性的混合系统模型，在有限视野最优控制问题（OCP）的计算方面具有非常有利条件。具体而言，我们表明可以通过非线性规划计算具有强大局部最优性保证的最优解，与通常需要混合整数优化的一般混合系统的经典 OCP 相比。除了非常适用于最优控制设计外，数值模拟还说明我们基于 NN 的技术在混合系统的系统识别方法方面具有非常类似的性能，并且在非线性基准测试中具有竞争力。

Apr, 2024