本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023
本文介绍一种新的基于模型的强化学习算法,名为 trajectory-wise multiple choice learning,该算法通过学习多头动力学模型来实现动力学泛化,具有优异的零样本泛化性能。
Oct, 2020
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020
本文介绍了一种通过 Local Dynamics Model 和无模型策略学习相结合的方式有效地学习状态转移函数从而能够解决一步先见规划的复杂操纵任务的方法,并在模拟中展示了本方法的优越性。
Jun, 2022
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021
本文研究了如何将在模拟中成功的控制策略推广到实际机器人上,通过计算模拟根据该策略期望的状态并利用深度逆动力学模型决定哪种真实世界的控制动作最适合实现这些状态,同时提出了一种数据收集方法(逐步)学习深度逆动力学模型。
Oct, 2016
本文提出了一种稳定学习动态系统的方法,该方法采用联合学习动态模型和李雅普诺夫函数的方法,这样学习的系统在整个状态空间内保持稳定,同时它也能够被结合到其他深度生成模型中学习复杂的动态系统,例如视觉纹理。
Jan, 2020
探索如何将扩散模型(DMs)的能力作为动力学模型在完全离线环境中解耦,以允许学习策略展开轨迹,并展示了 DyDiff 在离线强化学习中的有效性。
May, 2024
本文介绍了一种超越当前流行的最坏情况的理论控制框架,重新审视神经网络的统计力学的古老理论,并使用一个名为 VSDL 的模型来描述当算法过早停止或输入加噪声时会增加的温度和减少的数据量对深度神经网络的控制效果,进而提供了关于其过度拟合训练数据、学习算法波动和转变的一种新的定性描述。
Oct, 2017
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019