深度强化学习与对称数据增强在航空器侧向姿态跟踪控制中的应用

Jul, 2024

深度强化学习与对称数据增强在航空器侧向姿态跟踪控制中的应用

Deep reinforcement learning with symmetric data augmentation applied for aircraft lateral attitude tracking control

Yifei Li, Erik-jan van Kampen

TL;DR基于对称性的数据增强方法和扩展的Deep Deterministic Policy Gradient算法在航空器横向跟踪控制任务中展示了增强的样本效率和跟踪性能。

Abstract

symmetry is an essential property in some dynamical systems that can be exploited for state transition prediction and control policy optimization. This paper develops two symmetry-integrated →

发现论文，激发创造

通过模拟实现泛化：将模拟和真实数据集成到基于视觉的无人机深度强化学习中

本文提出一种深度强化学习算法，将模拟数据和真实世界数据相结合，通过学习机器的动力学和建立一个可扩展的感知系统，让四旋翼机器人仅凭单目相机避免碰撞，并在各种光线和几何条件下，用一个小时的真实世界数据就能在新环境中避免碰撞。

Feb, 2019

异步情节式深化确定性策略梯度法：面向计算复杂环境的连续控制

本文提出了一种扩展Deep Deterministic Policy Gradient(DDPG)的算法Asynchronous Episodic DDPG(AE-DDPG)，通过异步学习和组合应用周期控制和动态噪声等技术，该算法在连续控制任务中取得更好的结果，具有更高的奖励和更高的数据利用效率。

Mar, 2019

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

非参数策略梯度算法在非平稳环境中的策略调整

该研究提出了一种非参数学习的策略，通过嵌入策略分布作为非递减的欧几里得空间中的特征，从而允许其搜索空间在非常高（可能无限）维的RKHS（再生核希尔伯特空间）中定义。同时，通过在RKHS中计算的相似度度量，与Adaptive H技术相结合，实现优化动态环境下自主适应的最佳控制策略的非参数学习方法。实验证明，该方法在多个基准测试和一个配备动态变化环境的仿真机器人基准测试中优于DDPG和TD3方法。

Mar, 2022

移动机器人基于低维感知导航的深度强化学习的确定性和随机分析

本文比较了 Deep Deterministic Policy Gradients (DDPG) 和 Soft Actor-Critic (SAC) 两种 Deep-RL 技术在无地图导航移动机器人的表现，我们通过量化数据结果展示神经网络架构对学习的影响，结果表明，随机策略映射 (SAC) 更适合于深层结构，而确定性策略映射 (DDPG) 更适合于浅层结构。

Sep, 2022

在轨迹数据中检测对称性以提供更有意义的强化学习表示

本研究提出了一种使用神经网络自动检测强化学习系统对称性并生成高级表示的方法，并在两个模拟环境中进行实验来证明此方法的可行性。

Nov, 2022

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用MDP同态性进行表示学习可以提高其性能。

May, 2023

深入挖掘：利用基本对称性，提高离线强化学习的样本效率

本文提出Time-reversal symmetry enforced Dynamics Model方法以增强离线RL在小数据集上表现，该方法可用于构建新的TSRL算法，对数据效率和泛化性能进行提升。

Jun, 2023

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

利用对称性加速自由飞行机器人系统轨迹跟踪控制器的学习

本研究解决了强化学习在高维系统中采样效率低和奖励设计挑战的问题。通过利用具有漂浮基底的机器人系统的李群对称性，将轨迹跟踪问题建模为马尔科夫决策过程，从而实现了在低维度“商”MDP上训练策略并应用于原始系统的最优控制器。研究表明，这种对称性的方法在加速训练和减少跟踪误差方面都具有显著效果。

Sep, 2024