基于强化学习的 CrazyFlie 2.X 四轴飞行器控制
本文介绍一种基于强化学习技术训练的神经网络控制四旋翼的方法,提出了一种新的、相对于现有算法更适用于控制四旋翼的学习算法,实验结果表明,该策略网络可以相对准确地对步阶响应做出反应,并且在非常恶劣的初始化情况下(手动向上扔,并具有 5m/s 的初始速度)也能够将四旋翼稳定悬停在空中,同时每个时间步的策略评估计算时间仅为 7μs。
Jul, 2017
该研究旨在通过应用非线性深度强化学习(DRL)代理作为传统线性比例积分微分(PID)控制器的替代品,从而彻底改革无人机飞行控制。主要目标是实现无人机在手动和自主模式之间的无缝过渡,提高其响应性和稳定性。利用 Gazebo 模拟器中的 Proximal Policy Optimization(PPO)强化学习策略训练 DRL 代理,并通过添加价格为 20000 美元的室内 Vicon 跟踪系统实现 < 1mm 的定位精度,从而大大提高了自主飞行的精确性。为了在最短的无碰撞轨迹下引导无人机导航,我们还构建了一个三维 A * 路径规划器,并成功将其应用到实际飞行中。
Mar, 2024
通过学习无人机动力学的概率模型,我们使用基于模型的强化学习学习了四旋翼的推进姿态控制器,完全使用生成潜在轨迹通过传播随机解析梯度来优化控制器和价值函数。
Mar, 2020
通过使用基于强化学习的异态 actor-critic 架构和高度可靠的基于强化学习的训练方法,本研究提出了一种新颖的无人机控制框架,能够在仅 18 秒的训练时间内实现从模拟环境到真实环境的快速转化,并能在廉价的、现成的无人机上实现实时控制。同时,本研究通过介绍控制抽象、非线性和领域参数的分类以及引入一个全新的课程学习和高度优化的模拟器,提高了样本的复杂度和训练时间,并通过与现有控制解决方案的实验比较,展示了该框架在航迹跟踪方面具有竞争性能。
Nov, 2023
本文研究了基于现实生活中无人机赛事的长期规划场景,对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验,使用对手无人机的 GPS 信息作为专家指导进行训练,成功解决了复杂状态空间问题,其代码可以在我们的 GitHub 存储库中找到。
Jul, 2020
本文阐述了如何将深度强化学习算法应用于机器人领域,主要关注于以物理模拟平台为基础的无人机飞行任务控制,使用基于 Gazebo 的强化学习框架进行训练,最终成功实现了无人机自主降落的任务
Sep, 2022
本研究旨在设计和开发一个数学基础的四旋翼旋转动态仿真框架,以测试强化学习算法在各种灵活的配置下的表现,该框架利用初值问题求解常微分方程(ODE)系统来模拟四旋翼的线性和非线性表现,并通过添加随机高斯噪声使仿真变得确定性 / 随机性,同时该框架还支持多进程并行运行。
Feb, 2022
本文通过使用强化学习技术 (Reinforcement Learning, RL) 来调整四旋翼控制器的控制增益,特别地,我们采用了近端策略优化 (Proximal Policy Optimization, PPO) 来训练一个根据实际情况调整控制增益的策略,其中主要目标是在跟随预定轨迹的同时最小化跟踪误差。本文的主要目的是分析自适应增益策略的有效性,并将其与静态增益控制算法的性能进行比较,使用积分平方误差和积分时间平方误差作为度量标准。结果表明,与静态增益控制器相比,自适应增益方案实现了超过 40% 的跟踪误差降低。
Mar, 2024
提出一种联合仿真和现实学习框架,将导航指令和第一人称视角的原始观察结果映射到连续控制上,并采用监督式加强异步学习算法,将仿真和真实环境结合起来进行训练,最终在一个自然语言指令遵从的物理四轴飞行器任务中验证其有效性。
Oct, 2019