基于能量模型的模型规范化计划
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。
Feb, 2017
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
通过引入排名噪声对比估计(R-NCE)、可学习的负采样器和非对抗联合训练等关键因素,我们证明了高维连续空间中能量模型在训练时并不是不切实际的,我们的训练算法使能量模型作为策略在多模态路径规划和有接触力量推动等难度较高的基准测试中与扩散模型和其他最先进方法相竞争甚至表现更好。
Sep, 2023
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
本文展示了一种简单的表示学习方法:只依赖于通过潜在时间一致性训练的潜在动态模型,既可以在计划类的强化学习中使用,也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法,并在样本效率上达到了模型类方法的水平。
Jun, 2023
使用基于生成对抗神经网络的方法进行模仿学习具有许多优点,但是由于使用了无模型强化学习算法,需要与实际环境进行大量交互来训练生成器。为此,提出了基于模型的熵正则化模仿学习算法(MB-ERIL),通过基于熵正则化马尔可夫决策过程,减少与实际环境的交互次数。MB-ERIL 使用了两个判别器,通过结构化判别器,MB-ERIL 的学习效率得到了提高。计算机模拟和真实机器人实验表明,与基线方法相比,MB-ERIL 取得了具有竞争力的性能,并显着提高了样本效率。
Jun, 2022
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020