视觉四旋翼导航的并行强化学习模拟

Sep, 2022

视觉四旋翼导航的并行强化学习模拟

Parallel Reinforcement Learning Simulation for Visual Quadrotor Navigation

Jack Saunders, Sajad Saeedi, Wenbin Li

TL;DR该研究提出了一种基于 AirSim 的仿真框架，实现了有效的并行训练、分散式训练和大规模代理训练，从而在机器人的视觉四轴导航中实现了学习时间从 3.9 小时降低到 11 分钟的优化。

Abstract

reinforcement learning (RL) is an agent-based approach for teaching robots to navigate within the physical world. Gathering data for RL is known to be a laborious task, and real-world experiments can be risky. simulator

reinforcement learning simulators visual quadrotor navigation simulation framework decentralized training

发现论文，激发创造

秒学飞行

通过使用基于强化学习的异态 actor-critic 架构和高度可靠的基于强化学习的训练方法，本研究提出了一种新颖的无人机控制框架，能够在仅 18 秒的训练时间内实现从模拟环境到真实环境的快速转化，并能在廉价的、现成的无人机上实现实时控制。同时，本研究通过介绍控制抽象、非线性和领域参数的分类以及引入一个全新的课程学习和高度优化的模拟器，提高了样本的复杂度和训练时间，并通过与现有控制解决方案的实验比较，展示了该框架在航迹跟踪方面具有竞争性能。

Nov, 2023

QuadSim：用于强化学习算法的四旋翼旋转动力学模拟框架

本研究旨在设计和开发一个数学基础的四旋翼旋转动态仿真框架，以测试强化学习算法在各种灵活的配置下的表现，该框架利用初值问题求解常微分方程（ODE）系统来模拟四旋翼的线性和非线性表现，并通过添加随机高斯噪声使仿真变得确定性 / 随机性，同时该框架还支持多进程并行运行。

Feb, 2022

QuadSwarm: 基于直接推力控制的模块化多旋翼模拟器，用于深度强化学习

QuadSwarm 是一款快速、可靠的单机器人和多机器人强化学习模拟器，针对问题进行了两方面的改进，即数据需求和物理模拟水平，其在多旋翼控制策略的开发和模拟现实世界中的应用方面具有许多优势。

Jun, 2023

学会飞行 -- 一种使用 PyBullet 物理引擎的 Gym 环境，用于多智能体四轴飞行器控制的强化学习

本文介绍了一种基于 Bullet 物理引擎的开源多旋翼 OpenAI Gym 环境，并通过多个实验展示了其在控制和强化学习方面的应用，旨在鼓励将控制理论和机器学习相结合的未来研究。

Mar, 2021

通过模拟实现泛化：将模拟和真实数据集成到基于视觉的无人机深度强化学习中

本文提出一种深度强化学习算法，将模拟数据和真实世界数据相结合，通过学习机器的动力学和建立一个可扩展的感知系统，让四旋翼机器人仅凭单目相机避免碰撞，并在各种光线和几何条件下，用一个小时的真实世界数据就能在新环境中避免碰撞。

Feb, 2019

量子多机器人强化学习的软件模拟与可视化

本文介绍了一种新型的基于量子机器学习的自主多无人机控制框架 - 量子多无人机强化学习框架，并在该框架下经过充分的训练和分析，实现了合理的回报收敛和服务质量表现，具有更稳定的训练结果及优秀的训练过程分析功能。

Nov, 2022

基于模拟的强化学习在基于视觉的敏捷飞行中的引导

将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛，通过直接处理视觉输入无需明确状态估计，我们提出了一种结合强化学习和模仿学习优势的新型训练框架，通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况下驾驶四轴飞行器穿过赛道的优秀性能和鲁棒性。

Mar, 2024

使用模拟飞行学习将自然语言指令映射到物理四轴飞行器控制

提出一种联合仿真和现实学习框架，将导航指令和第一人称视角的原始观察结果映射到连续控制上，并采用监督式加强异步学习算法，将仿真和真实环境结合起来进行训练，最终在一个自然语言指令遵从的物理四轴飞行器任务中验证其有效性。

Oct, 2019

基于 GPU 加速的分布式强化学习机器人仿真

使用 GPU 加速物理引擎 NVIDIA Flex 模拟机器人学习在连续控制和运动任务上表现出了极大的优势，使用少量的 CPU 与单 GPU 即可短时间内训练出高效的机器人智能。

Oct, 2018

自主飞行器基于深度强化学习的长期规划

本文研究了基于现实生活中无人机赛事的长期规划场景，对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验，使用对手无人机的 GPS 信息作为专家指导进行训练，成功解决了复杂状态空间问题，其代码可以在我们的 GitHub 存储库中找到。

Jul, 2020