利用强化学习技术对氦气球进行资源受限的定点悬停控制

Mar, 2023

利用强化学习技术对氦气球进行资源受限的定点悬停控制

Resource-Constrained Station-Keeping for Helium Balloons using Reinforcement Learning

Jack Saunders, Loïc Prenevost, Özgür Şimşek, Alan Hunter, Wenbin Li

TL;DR本文探讨利用增强学习控制方式来控制高空气球的运动，可以实现在固定空间内进行探测调查和通信中继，同时能够减少能源消耗，支持长时间飞行。此方法适用于球囊在高空中的站位和导航问题，并可使用其他推进方式以及更多不同的轨迹。

Abstract

high altitude balloons have proved useful for ecological aerial surveys, atmospheric monitoring, and communication relays. However, due to weight and power constraints, there is a need to investigate alternate modes of

发现论文，激发创造

AirCapRL：使用深度强化学习实现自主航空人体运动捕捉

本文提出了一种基于强化学习的多机器人编队控制器，用于自主空中人体运动捕捉。将此问题视为顺序决策问题并使用深度神经网络的强化学习方法进行解决，以实现基于视觉的运动捕捉目标，并利用 PPO 训练随机分散控制策略以进行编队控制。在模拟环境中进行了广泛的模拟实验以验证该方法的有效性。最后，真实机器人实验表明我们的策略具有很好的泛化性能。

Jul, 2020

移动风机下的气动非抓握操作学习

该研究介绍通过气动非抓取性操纵（吹气）来有效地将散乱的物体移动到目标容器。研究通过基于深度强化学习的空间动作地图框架实现了高水平的规划和低水平的闭环控制的有效组合。结果表明，吹气比推动等方法更有效，也证明了在低水平微观控制和高水平规划等不同子策略之间存在专业化的合作。在实际机器人上，该系统的仿真训练策略成功地转移到了实际环境，并可以泛化到新颖物体上。

Apr, 2022

无人机敏捷主动目标感知的强化学习

本文提出了一种基于深度强化学习的方法，用于规划信息轨迹以增加无人机(UAV)发现丢失目标的可能性，以此来解决搜索和救援任务中的活动目标探测问题。

Dec, 2022

利用空中机器人群体协作深度强化学习方法学习在湍流中导航

本文研究了多飞行器在恶劣气流环境中的运动控制问题，并提出了一种基于深度强化学习和图形卷积神经网络的解决方法，能够帮助机器人团队实现更好的气流补偿和协同运动。

Jun, 2023

深度贝叶斯强化学习用于航天器姿态调整和对接

我们介绍了一种新颖的贝叶斯演员-评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Nov, 2023

利用强化学习提高基于无人机的温室气体通量推断

通过使用数据同化推断和强化学习优化采样策略的思路，研究展示了一个基于无人机观测的地表通量估计框架，证明了强化学习训练的无人机可以更准确地量化CO2热点，而非沿预定义路径进行采样的无人机，这为进一步开发复杂地表通量场的映射框架提供了有价值的见解。

Jan, 2024

信息增益引导无人机

这篇研究论文比较了两种用于推断气体羽流源项参数的无人机采样策略，并证明了深度强化学习在非等向气体羽流环境中相对于信息觅食法的优越性能。

Jan, 2024

CGD：无人机轨迹规划的约束引导扩散策略

使用约束引导扩散（CGD）的混合学习/在线优化方案，将传统以优化为基础的规划器与模仿学习相结合，生成无碰撞、动态可行的轨迹，以解决计算成本高、动态可行性不明确和适应新约束的问题。

May, 2024

PIP-Loco：一种用于四足机器人运动的本体感觉无穷远规划框架

本研究针对四足机器人在快速变化的表面上运动时，现有模型预测控制（MPC）方法无法应对复杂任务和缺乏鲁棒性的问题。我们提出了一种将本体感觉规划与强化学习（RL）相结合的框架，能够实现灵活且安全的运动行为，并在多个地形上展示了显著的鲁棒性和性能提升。

Sep, 2024

自我感知的无限视界规划框架用于四足机器人运动

本研究解决了四足机器人在复杂任务中面临的规划能力不足的问题。通过将自我感知规划与强化学习相结合，提出了一种新颖的框架，使机器人在不断变化的地形上能够实现灵活且安全的运动。研究表明，该框架在多种地形下表现出更强的鲁棒性，并能有效处理约束条件。

Sep, 2024