深度强化学习的连续控制
该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间,成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别,并比 2012 RoboCup 冠军代理更可靠地得分。
Nov, 2015
近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力,通过粗糙的动作空间离散化实现了有利的探索特性,而在没有动作惩罚的情况下,最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长,结合解耦的 Q 学习最新成果,将我们的方法扩展到高维动作空间,最多达到 dim (A) = 38。我们的研究表明,自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法,在连续控制任务上表现出令人惊讶的强大性能。
Apr, 2024
本研究使用深度学习和强化学习方法解决机器人的熟练操作任务,同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性,成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。
Apr, 2017
本文提出了一种使用神经网络模型 对连续动作空间离散化建模的方法,通过预测单个维度的方法对高维空间进行建模,实现了有效解决 高维连续控制问题 的技术,其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。
May, 2017
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解,从而将 Q-learning 方法应用于高维连续动作空间的情况,能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌,并在多种连续控制任务中表现出强大的性能。
Oct, 2022
本研究探讨了算法和表示方法,以降低针对连续控制任务的深度强化学习的样本复杂度,并提出了两种互补的技术来提高这种算法的效率,包括导出连续 Q 学习算法的归一化优势函数以及使用学习的模型来加速无模型强化学习,并在一组模拟机器人控制任务中表现出明显的改进。
Mar, 2016
本研究旨在利用深度确定性策略梯度算法来应对自主驾驶中复杂的状态和行动空间,我们选择 The Open Racing Car Simulator (TORCS) 来模拟实验环境,并选择适宜的传感器信息设计奖励机制并建立 DPPG 模型,实验结果表明模型在多种场景下均取得了良好的效果。
Nov, 2018
利用快速物理模拟器 MuJoCo 在连续控制环境中运行任务,通过离散化方法比较 Q 学习和 SARSA 作为基准,逐步转向最先进的深度策略梯度方法 DDPG。在大量的回合中,Q 学习的得分超过了 SARSA,但在少数回合中,DDPG 表现更好。最后,通过微调模型超参数以期望在更少的时间和资源消耗上获得更好的性能。我们预期 DDPG 的新设计将大幅提高性能,但仅仅几个回合后,我们就能够达到相当不错的平均奖励。我们期望在充足的时间和计算资源下进一步提升性能。
Jul, 2023