使用策略和奖励塑形的无人机控制强化学习

Dec, 2022

使用策略和奖励塑形的无人机控制强化学习

Reinforcement Learning for UAV control with Policy and Reward Shaping

Cristian Millán-Arias, Ruben Contreras, Francisco Cruz, Bruno Fernandes

TL;DR本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Abstract

In recent years, unmanned aerial vehicle (UAV) related technology has expanded knowledge in the area, bringing to light new problems and challenges that require solutions. Furthermore, because the technology allows processes usually carried out by people to be automated, it is in great

unmanned aerial vehicle automation reinforcement learning drone control reward shaping

发现论文，激发创造

自主无人机导航的强化学习应用：系统综述

该研究探讨了使用强化学习算法解决无人机导航问题，讨论了不同环境下的算法特性和选择，并提出未来的研究方向。

Aug, 2022

自主驾驶中的强化学习智能体风险感知奖励塑形

该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习方法。

Jun, 2023

基于深度强化学习的无人机无线数据采集路径规划

该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据，以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制，从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束，在各种场景参数下做出运动决策。

Jul, 2020

基于强化学习的空战机动生成

本研究提出了一种利用深度强化学习技术（TD3）和经验回放（HER）来优化具有 Dubin 车辆动力学特性的无人机在二维空间中达到目标路径的方法，并在两种不同环境下进行了模拟实验，可用于 UAV 自主机动决策等领域。

Jan, 2022

一种用于无人机自主降落平台的深度强化学习策略

本文阐述了如何将深度强化学习算法应用于机器人领域，主要关注于以物理模拟平台为基础的无人机飞行任务控制，使用基于 Gazebo 的强化学习框架进行训练，最终成功实现了无人机自主降落的任务

Sep, 2022

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

通过奖励塑造在强化学习中保证控制需求

在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Nov, 2023

基于激光雷达的端到端强化学习自主赛车

该研究使用强化学习算法开发和训练了一个代理机器人，在模拟环境中利用激光和速度数据导航赛车，并在真实赛车场景中进行了实验评估，展示了强化学习算法在提高自主驾驶赛车性能方面的可行性和潜在优势。

Sep, 2023

自主驾驶的深度强化学习：一份综述

本文综述了深度强化学习算法在自动驾驶任务上的应用，包括分类、验证、测试和强化现有强化学习算法解决方案的方法，还介绍了相关领域和挑战。

Feb, 2020

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015