本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法,用于学习独立于机器人动力学模型的实际机器人行走姿势,仅需要少量试验即可。实验结果表明,我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态,而不需要任何模型或仿真。同时,我们展现了本算法在单个较佳超参数上实现了最先进的性能,与环境中的适度变化相容。
Dec, 2018
通过引入主动动态偏好方法(Active Dynamics Preference),对系统随机参数进行有效选择,并在四个机器人运动任务中进行验证,表明此方法具有超强的适应性和鲁棒性,可有效提高机器人环境下的一致性。
Sep, 2022
提出了一种好奇心驱动的优先级策略(CDP)框架,通过模仿人类学习流程,着力于相对罕见的事件,使得机器人在强化学习中更加高效地学习并提高性能。
Feb, 2019
本研究将宽容度应用于多智能体深度强化学习中,通过控制弱化负面策略更新所用的温度值,引入了乐观主义来更新价值函数,从而促进了协作,并在长期规划进程中很可能收敛到最优策略。实证评估表明,相比于标准和调度 HDQN 代理,LDQN 代理更有可能在具有随机奖励的任务中收敛到最优策略。
Jul, 2017
该论文介绍了离线强化学习和在线强化学习的统一理论以及密度比建模在在线强化学习中的存在,并提出了 GLOW 算法和 HyGLOW 算法作为在线探索的方法。
Jan, 2024
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
该论文提出了一种名为 lazy-MDPs 的增强学习新形式,它可以将人类的 “懒惰” 行为方式注入到决策过程中,因此对于解释标准 MDP 的政策能力得到更好的提升,同时该方法在 Atari 游戏中可以实现与竞争水平相当的性能。
Mar, 2022
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
DrQ-v2 是一个模型无关的强化学习算法,基于 off-policy actor-critic 方法和数据增强,可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务,提供了强大且计算效率高的基线实现。
Jul, 2021
该论文介绍了 EfficientZero V2,它是一个用于高效样本学习的强化学习算法的通用框架,在多个领域中扩展了其性能,包括连续和离散动作以及视觉和低维度输入,在有限数据的情况下,EfficientZero V2 在各种任务中明显优于现有技术,特别是在 Atari 100k、Proprio Control 和 Vision Control 等基准测试中表现出更好的结果。
Mar, 2024