研究选择对于深度强化学习在航天控制中的影响

May, 2024

研究选择对于深度强化学习在航天控制中的影响

Investigating the Impact of Choice on Deep Reinforcement Learning for Space Controls

Nathaniel Hamilton, Kyle Dunlap, Kerianne L. Hobbs

TL;DR该论文研究了使用离散动作空间，以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响，针对检查任务和停靠任务的需求。结果显示对于检查任务，有限数量的离散选择导致最佳性能，而对于停靠任务，连续控制导致最佳性能。

Abstract

For many space applications, traditional control methods are often used during operation. However, as the number of space assets continues to grow, autonomous operation can enable rapid development of control methods for different space related tasks. One method of developing autonomou

autonomous operation reinforcement learning discrete action spaces inspection task docking task

发现论文，激发创造

机器人混合控制的连续 - 离散强化学习

采用混合强化学习方法来同时优化离散和连续动作，以解决带有混合决策变量的控制问题，并探索使用元动作来重新定义问题。

Jan, 2020

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

基于深度强化学习的实际驾驶环境离散控制

本篇研究提出了一个基于真实驾驶环境的 MDP 框架，使用多智能体学习算法来实现对自动驾驶车辆的训练，并提出了可靠的初始化、数据增强和训练技术来实现最小化的视频数据和培训，最终在 TORCS 虚拟驾驶环境中得到了验证。

Nov, 2022

一种用于无人机自主降落平台的深度强化学习策略

本文阐述了如何将深度强化学习算法应用于机器人领域，主要关注于以物理模拟平台为基础的无人机飞行任务控制，使用基于 Gazebo 的强化学习框架进行训练，最终成功实现了无人机自主降落的任务

Sep, 2022

基于潜空间目标的最优控制的深度强化学习行为模式切换

利用最优控制在深度强化学习策略的潜在空间中进行优化，识别并切换行为模式，结果表明该方法能够使策略产生所需的行为模式。

Jun, 2024

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

使用深度强化学习学习运动技能：行动空间选择的影响

本文研究了用于高维状态描述的深度强化学习，并比较了不同的动作参数表示对学习难度、策略鲁棒性、运动质量和策略查询率的影响。从多个平面关节图形和多个步态的步态循环模仿任务的结果来看，本文表明较高级别的动作参数化所提供的本地反馈可以显著影响策略的学习、鲁棒性和质量。

Nov, 2016

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

从二维到三维环境中的 Q 学习：利用强化学习模拟自主导航，无需依赖库

通过实证分析，本研究评估了强化学习代理在不同空间维度中的学习轨迹和适应过程，揭示了强化学习算法在导航复杂的多维空间中的有效性，并对未来研究提出了思考。

Mar, 2024