基于深层模型的强化学习学习飞行

Mar, 2020

基于深层模型的强化学习学习飞行

Learning to Fly via Deep Model-Based Reinforcement Learning

Philip Becker-Ehmck, Maximilian Karl, Jan Peters, Patrick van der Smagt

TL;DR通过学习无人机动力学的概率模型，我们使用基于模型的强化学习学习了四旋翼的推进姿态控制器，完全使用生成潜在轨迹通过传播随机解析梯度来优化控制器和价值函数。

Abstract

Learning to control robots without requiring engineered models has been a long-term goal, promising diverse and novel applications. Yet, reinforcement learning has only achieved limited impact on real-time robot control due to its high demand of real-world interactions. In this work, b

robot control reinforcement learning probabilistic model quadrotor latent variable model

发现论文，激发创造

秒学飞行

通过使用基于强化学习的异态 actor-critic 架构和高度可靠的基于强化学习的训练方法，本研究提出了一种新颖的无人机控制框架，能够在仅 18 秒的训练时间内实现从模拟环境到真实环境的快速转化，并能在廉价的、现成的无人机上实现实时控制。同时，本研究通过介绍控制抽象、非线性和领域参数的分类以及引入一个全新的课程学习和高度优化的模拟器，提高了样本的复杂度和训练时间，并通过与现有控制解决方案的实验比较，展示了该框架在航迹跟踪方面具有竞争性能。

Nov, 2023

强化学习控制四轴飞行器

本文介绍一种基于强化学习技术训练的神经网络控制四旋翼的方法，提出了一种新的、相对于现有算法更适用于控制四旋翼的学习算法，实验结果表明，该策略网络可以相对准确地对步阶响应做出反应，并且在非常恶劣的初始化情况下（手动向上扔，并具有 5m/s 的初始速度）也能够将四旋翼稳定悬停在空中，同时每个时间步的策略评估计算时间仅为 7μs。

Jul, 2017

一种用于无人机自主降落平台的深度强化学习策略

本文阐述了如何将深度强化学习算法应用于机器人领域，主要关注于以物理模拟平台为基础的无人机飞行任务控制，使用基于 Gazebo 的强化学习框架进行训练，最终成功实现了无人机自主降落的任务

Sep, 2022

自主飞行器基于深度强化学习的长期规划

本文研究了基于现实生活中无人机赛事的长期规划场景，对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验，使用对手无人机的 GPS 信息作为专家指导进行训练，成功解决了复杂状态空间问题，其代码可以在我们的 GitHub 存储库中找到。

Jul, 2020

Sim-to-(Multi)-Real: 将低层鲁棒控制策略转移到多个四旋翼上

使用强化学习训练神经网络，学习低级别的四轴飞行器控制策略，无需使用稳定的 PD 控制器，可以推广到多种四轴飞行器。

Mar, 2019

使用神经网络学习四旋翼动力学以进行飞行控制

本文探讨使用基于神经网络的动力学模型来合成不同于训练的轨迹的控制，并在四旋翼试验台上进行了实验验证。

Oct, 2016

基于视觉的自主无人机赛车的深度感觉运动策略学习

通过学习深度的感知动作策略，使用对比学习从输入图像中提取固定特征表示，通过两阶段的作弊式学习框架训练神经网络策略，将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断，无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性，而且可以实现与状态法相同的赛车性能，为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。

Oct, 2022

利用空中机器人群体协作深度强化学习方法学习在湍流中导航

本文研究了多飞行器在恶劣气流环境中的运动控制问题，并提出了一种基于深度强化学习和图形卷积神经网络的解决方法，能够帮助机器人团队实现更好的气流补偿和协同运动。

Jun, 2023

基于深度强化学习的无人机无线数据采集路径规划

该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据，以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制，从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束，在各种场景参数下做出运动决策。

Jul, 2020

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015