来自演示的动作量化连续控制
我们提出了一种自适应的行动量化方案,通过使用 VQ-VAE 学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在 Robomimic 环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。
Oct, 2023
在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。
Oct, 2018
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力,通过粗糙的动作空间离散化实现了有利的探索特性,而在没有动作惩罚的情况下,最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长,结合解耦的 Q 学习最新成果,将我们的方法扩展到高维动作空间,最多达到 dim (A) = 38。我们的研究表明,自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法,在连续控制任务上表现出令人惊讶的强大性能。
Apr, 2024
本文提出一种名为 Amortized Q-learning (AQL) 的方法,利用类似于摊销推理的技术,通过从学习到的建议分布中采样一小部分可能的动作,取代所有动作的昂贵最大化,从而处理离散、连续或混合动作空间,同时保持 Q-learning 的优点。实验结果表明,在具有高达 21 个维度动作的连续控制任务中,AQL 优于 D3PG (Barth-Maron et al., 2018) 和 QT-Opt (Kalashnikov et al., 2018)。在结构化的离散动作空间实验中,AQL 能够有效地学习到良好的策略。
Jan, 2020
基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战,并利用符号模型表示行为关系,提出了一种解决方案,该方案能够获得编码最优策略的两个 Q 表,并探讨了空间抽象参数与 Q 值损失之间的相关性,并通过两个案例研究展示了该方法的工程应用价值。
Jun, 2024
本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题,提出了两个新算法:Deep Multi-Agent Parameterized Q-Networks(Deep MAPQN)和 Deep Multi-Agent Hierarchical Hybrid Q-Networks(Deep MAHHQN)。中心化训练,分散执行范例下的实证结果显示,Deep MAPQN 和 Deep MAHHQN 均更为有效,且远胜于现有独立深度参数化 Q 学习方法。
Mar, 2019
本文提出了一种使用神经网络模型 对连续动作空间离散化建模的方法,通过预测单个维度的方法对高维空间进行建模,实现了有效解决 高维连续控制问题 的技术,其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。
May, 2017
该研究评估了一种离散动作空间强化学习方法(Q-learning)在机器人倒立摆平衡的连续控制问题中的应用。为了加快学习过程并克服直接在真实机器人系统上进行学习的技术困难,学习阶段在模拟环境中进行。通过对从真实系统获取的数据进行曲线拟合来推导系统动力学的数学模型。该研究验证了该方法的可行性,应用于一个真实世界的机器人学习平衡倒立摆。该研究还强调并证明了在模拟中准确表示物理世界对于实现强化学习算法在真实环境中更有效的重要性,即使使用离散动作空间算法来控制连续动作。
Dec, 2023
我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化,并通过图形恢复离散观测之间的时序关系。同时,我们提出了考虑不确定性和时间距离的课程目标,这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索,且在各种目标达成任务中,甚至使用自我中心视觉输入时,该方法在数据效率和性能上都优于最先进的课程增强学习方法。
Oct, 2023