深度强化学习与对称数据增强在航空器侧向姿态跟踪控制中的应用
本文提出一种深度强化学习算法,将模拟数据和真实世界数据相结合,通过学习机器的动力学和建立一个可扩展的感知系统,让四旋翼机器人仅凭单目相机避免碰撞,并在各种光线和几何条件下,用一个小时的真实世界数据就能在新环境中避免碰撞。
Feb, 2019
本文提出了一种扩展Deep Deterministic Policy Gradient(DDPG)的算法Asynchronous Episodic DDPG(AE-DDPG),通过异步学习和组合应用周期控制和动态噪声等技术,该算法在连续控制任务中取得更好的结果,具有更高的奖励和更高的数据利用效率。
Mar, 2019
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
该研究提出了一种非参数学习的策略,通过嵌入策略分布作为非递减的欧几里得空间中的特征,从而允许其搜索空间在非常高(可能无限)维的RKHS(再生核希尔伯特空间)中定义。同时,通过在RKHS中计算的相似度度量,与Adaptive H技术相结合,实现优化动态环境下自主适应的最佳控制策略的非参数学习方法。实验证明,该方法在多个基准测试和一个配备动态变化环境的仿真机器人基准测试中优于DDPG和TD3方法。
Mar, 2022
本文比较了 Deep Deterministic Policy Gradients (DDPG) 和 Soft Actor-Critic (SAC) 两种 Deep-RL 技术在无地图导航移动机器人的表现,我们通过量化数据结果展示神经网络架构对学习的影响,结果表明,随机策略映射 (SAC) 更适合于深层结构,而确定性策略映射 (DDPG) 更适合于浅层结构。
Sep, 2022
本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力,并在连续控制环境中研究抽象的概念,提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果,结果表明该算法利用MDP同态性进行表示学习可以提高其性能。
May, 2023
本文提出Time-reversal symmetry enforced Dynamics Model方法以增强离线RL在小数据集上表现,该方法可用于构建新的TSRL算法,对数据效率和泛化性能进行提升。
Jun, 2023
本研究解决了强化学习在高维系统中采样效率低和奖励设计挑战的问题。通过利用具有漂浮基底的机器人系统的李群对称性,将轨迹跟踪问题建模为马尔科夫决策过程,从而实现了在低维度“商”MDP上训练策略并应用于原始系统的最优控制器。研究表明,这种对称性的方法在加速训练和减少跟踪误差方面都具有显著效果。
Sep, 2024