四旋翼无人机跟踪控制系统的可信强化学习

Feb, 2023

四旋翼无人机跟踪控制系统的可信强化学习

Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control Systems

Yanran Wang, David Boyle

TL;DR提出了一种新型的轨迹跟踪器，其集成了分布式强化学习扰动估计器和随机模型预测控制器，用于准确识别不确定的气动效应，并优化控制参数来保证凸性，实现了至少最优全局收敛速率和一个确定的亚线性速率，对于实际应用提出的 ConsDRED-SMPC 框架在在模拟和实际实验中均得到了验证和评估

Abstract

Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as sim

quadrotors trajectory tracking aerodynamic effects distributional reinforcement learning stochastic model predictive control

发现论文，激发创造

基于分布式强化估计的可解释随机模型预测控制在四旋翼跟踪系统中的应用

该论文提出了一种新的轨迹跟踪器，用于自主四旋翼飞行器在动态和复杂环境下导航，在该系统中，分布式强化学习（RL）估计器用于未知的空气动力学效应，与随机模型预测控制（SMPC）相结合进行轨迹跟踪，用这种方法可以改进了至少 66% 的跟踪误差。

May, 2022

一种针对受干扰的无人机鲁棒监控控制的强化学习方法

本文提出了一种针对无人机的监督强化学习控制方法，通过与现有嵌入式控制交错的控制架构，以及针对恶劣风条件的稳健性表现，实现了对环境扰动的控制，使用 Tarot T-18 八旋翼机进行了案例研究，结果表明相对于大多数车辆中使用的经典级联控制结构，监督强化学习模式在面对未知的风力条件时取得了实质性的性能提高。

May, 2023

基于数据驱动的四轴飞行器模型预测控制

采用高斯过程模型建模空气动力学特性，并将其并入模型预测控制器，从而实现高速无人机精确控制。

Feb, 2021

Sim-to-(Multi)-Real: 将低层鲁棒控制策略转移到多个四旋翼上

使用强化学习训练神经网络，学习低级别的四轴飞行器控制策略，无需使用稳定的 PD 控制器，可以推广到多种四轴飞行器。

Mar, 2019

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

DiAReL: 机器人控制中的扰动感知鲁棒性 Sim2Real 策略迁移强化学习

本文研究了引入扰动估计的延迟条件下，通过扩展状态空间的方式应用马尔可夫决策过程的新方法，可以提高机器人控制的稳定性和鲁棒性。

Jun, 2023

强化学习控制四轴飞行器

本文介绍一种基于强化学习技术训练的神经网络控制四旋翼的方法，提出了一种新的、相对于现有算法更适用于控制四旋翼的学习算法，实验结果表明，该策略网络可以相对准确地对步阶响应做出反应，并且在非常恶劣的初始化情况下（手动向上扔，并具有 5m/s 的初始速度）也能够将四旋翼稳定悬停在空中，同时每个时间步的策略评估计算时间仅为 7μs。

Jul, 2017

基于物理学思想的四旋翼动力学时态学习，用于准确的模型预测轨迹跟踪

本研究提出了一种基于物理启发的时间卷积网络（PI-TCN）方法，用于纯从机器人经验中学习四旋翼系统动力学，结合稀疏时间卷积和稠密前馈连接，挖掘四旋翼动力学的结构，并将物理约束嵌入训练过程，以实现网络的泛化能力，同时实现了精确的封闭环轨迹跟踪和预测控制，实验结果表明这是第一次成功将物理启发深度学习应用于时间卷积网络和系统识别任务。

Jun, 2022

秒学飞行

通过使用基于强化学习的异态 actor-critic 架构和高度可靠的基于强化学习的训练方法，本研究提出了一种新颖的无人机控制框架，能够在仅 18 秒的训练时间内实现从模拟环境到真实环境的快速转化，并能在廉价的、现成的无人机上实现实时控制。同时，本研究通过介绍控制抽象、非线性和领域参数的分类以及引入一个全新的课程学习和高度优化的模拟器，提高了样本的复杂度和训练时间，并通过与现有控制解决方案的实验比较，展示了该框架在航迹跟踪方面具有竞争性能。

Nov, 2023

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023