自主赛车的极限探索：最优控制与强化学习

Oct, 2023

自主赛车的极限探索：最优控制与强化学习

Reaching the Limit in Autonomous Racing: Optimal Control versus Reinforcement Learning

Yunlong Song, Angel Romero, Matthias Mueller, Vladlen Koltun, Davide Scaramuzza

TL;DR本文研究如何为一个敏捷移动机器人设计一个控制系统，重点研究了一项具有挑战性的场景：自主无人机赛车。我们证明了在这个场景中，通过强化学习（RL）训练的神经网络控制器优于最优控制（OC）方法。我们的研究表明，RL 胜过 OC 的基本优势不是在于更好地优化了其目标，而是优化了一个更好的目标。RL 可以直接优化任务级目标，并能够利用领域随机化来应对模型不确定性，从而发现更稳健的控制响应。本研究对于推动敏捷机器人的最大性能具有重要意义，并阐明了 RL 和 OC 在机器人控制中的作用。

Abstract

A central question in robotics is how to design a control system for an agile mobile robot. This paper studies this question systematically, focusing on a challenging setting: autonomous drone racing. We show that a neural network controller trained with →

agile mobile robot neural network controller reinforcement learning optimal control methods autonomous drone racing

发现论文，激发创造

基于激光雷达的端到端强化学习自主赛车

该研究使用强化学习算法开发和训练了一个代理机器人，在模拟环境中利用激光和速度数据导航赛车，并在真实赛车场景中进行了实验评估，展示了强化学习算法在提高自主驾驶赛车性能方面的可行性和潜在优势。

Sep, 2023

朝向最优头对头自主赛车的课程加强学习

头对头自主赛车的最优策略研究中，我们提出了一个基于课程学习的框架来逐步过渡到更复杂的真实环境，以教授强化学习代理一个更接近最优策略的方法，并提出了基于控制屏障函数的安全强化学习算法，既能有效保证代理的安全性又不会牺牲策略的最优性。

Aug, 2023

使用策略和奖励塑形的无人机控制强化学习

本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Dec, 2022

自主飞行器基于深度强化学习的长期规划

本文研究了基于现实生活中无人机赛事的长期规划场景，对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验，使用对手无人机的 GPS 信息作为专家指导进行训练，成功解决了复杂状态空间问题，其代码可以在我们的 GitHub 存储库中找到。

Jul, 2020

强化学习用于自动驾驶系统在线测试的复制与扩展研究

复制和扩展了前一次经验研究，研究表明引入强化学习与多目标搜索相结合的方式，在深度神经网络系统的在线测试中优于其他技术（随机搜索和多目标搜索）。新的 RL 代理能够收敛到一个有效策略，明显优于随机测试，并且揭示了进一步探索如何充分利用 RL 进行在线 ADS 测试的可能改进方向。

Mar, 2024

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

强化学习控制四轴飞行器

本文介绍一种基于强化学习技术训练的神经网络控制四旋翼的方法，提出了一种新的、相对于现有算法更适用于控制四旋翼的学习算法，实验结果表明，该策略网络可以相对准确地对步阶响应做出反应，并且在非常恶劣的初始化情况下（手动向上扔，并具有 5m/s 的初始速度）也能够将四旋翼稳定悬停在空中，同时每个时间步的策略评估计算时间仅为 7μs。

Jul, 2017

自动驾驶中对模型误差鲁棒性的部分端到端强化学习

通过提出一种部分端到端算法，利用经典控制器的稳健性，从而在自动驾驶汽车在实际车辆建模误差存在的情况下，达到提高强化学习 (RL) 解决方案性能的目的。

Dec, 2023

从最优控制中学习敏捷路径

本文提出了一种通过在最优控制方法的输出上训练机器学习模型来同时解决机器人部署中的运动规划与优化问题的方法。

Nov, 2022