零样本自适应四轴飞行器控制器
使用强化学习训练神经网络,学习低级别的四轴飞行器控制策略,无需使用稳定的 PD 控制器,可以推广到多种四轴飞行器。
Mar, 2019
本文介绍一种基于强化学习技术训练的神经网络控制四旋翼的方法,提出了一种新的、相对于现有算法更适用于控制四旋翼的学习算法,实验结果表明,该策略网络可以相对准确地对步阶响应做出反应,并且在非常恶劣的初始化情况下(手动向上扔,并具有 5m/s 的初始速度)也能够将四旋翼稳定悬停在空中,同时每个时间步的策略评估计算时间仅为 7μs。
Jul, 2017
使用无模型强化学习在仿真环境下训练的,基于镜像世界神经网络的四足机器人运动控制器具有极强的抗扰动性能和泛化能力,能够协调机器人的动作频率和运动速度,实现更加自然和合理的运动模式。
Jul, 2022
本文探讨了使用基于强化学习的神经网络自整定的 PID 控制算法,应用于四旋翼飞行器的姿态和高度控制,在动态和静态增益的调整中使用了适应性动量(ADAM)优化器和反向传播(BP)算法,并证明该方法比具有恒定增益的 PID 控制器具有更好的性能。
Jul, 2023
通过使用基于强化学习的异态 actor-critic 架构和高度可靠的基于强化学习的训练方法,本研究提出了一种新颖的无人机控制框架,能够在仅 18 秒的训练时间内实现从模拟环境到真实环境的快速转化,并能在廉价的、现成的无人机上实现实时控制。同时,本研究通过介绍控制抽象、非线性和领域参数的分类以及引入一个全新的课程学习和高度优化的模拟器,提高了样本的复杂度和训练时间,并通过与现有控制解决方案的实验比较,展示了该框架在航迹跟踪方面具有竞争性能。
Nov, 2023
本文提出了一种基于模拟仿真的 sensorimotor 策略,让一个自主的 quadrotor 可以在没有真实数据的情况下飞行极限的特技动作,并且不需要人类专业知识的提供,且可以不经过细致微调直接部署到实际应用上。
Jun, 2020
本文通过使用强化学习技术 (Reinforcement Learning, RL) 来调整四旋翼控制器的控制增益,特别地,我们采用了近端策略优化 (Proximal Policy Optimization, PPO) 来训练一个根据实际情况调整控制增益的策略,其中主要目标是在跟随预定轨迹的同时最小化跟踪误差。本文的主要目的是分析自适应增益策略的有效性,并将其与静态增益控制算法的性能进行比较,使用积分平方误差和积分时间平方误差作为度量标准。结果表明,与静态增益控制器相比,自适应增益方案实现了超过 40% 的跟踪误差降低。
Mar, 2024
通过学习无人机动力学的概率模型,我们使用基于模型的强化学习学习了四旋翼的推进姿态控制器,完全使用生成潜在轨迹通过传播随机解析梯度来优化控制器和价值函数。
Mar, 2020