- LaPlaSS: 随机系统的潜空间规划
我们提出了一种 “生成 - 测试” 方法,用于在无已知动力学模型的自主移动代理中以有界风险进行规划,并使用变分自动编码器学习潜在线性动力学模型来生成候选轨迹。
- 贝叶斯神经网络的概率式到达 - 避免
本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题,包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率,以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。
- 物体堆叠操作的动态分辨率模型学习
本研究提出一种采用动态分辨率粒子表示方法,利用图神经网络(GNNs)学习统一的动力学模型,在不同的抽象级别上动态学习和适应表示,以实现效率和效果的最佳平衡,经过模拟和实际场景的综合评估,我们证明了该方法在搜集、分类、重新分配各种实例制成的颗 - 回顾状态:将模拟和真实任务要素融合以实现高效强化学习
通过把任务分解成不同的部分并利用动态的不平衡性,使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。
- ICML随机动作 vs 随机策略:基于模型的直接策略搜索的引导
本文研究了初始数据收集方法对动态模型学习的影响,并比较了两个文献中使用的初始化方法,结果表明任务依赖因素可能对每种方法都有害,建议探索混合方法。
- 离线策略比较与置信度评估:基准和基线
本文通过在离线强化学习数据集上添加策略比较查询的方式创建了一个加置信度的离线政策比较基准 (OPCC),并对一类基于模型的基线的风险与覆盖率进行了实证评估,结果表明某些基线变体具有优势,同时未来研究中还有大有可为的改进空间。
- 基于模型的视觉演示逆强化学习
本文介绍了一种基于梯度的反向强化学习框架,利用预训练的视觉动态模型从视觉人类演示中学习成本函数,并通过视觉模型预测控制来复制演示行为,以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。
- 稳健离线深度强化学习中克服模型偏差
本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE,使用动力学模型评估策略的性能,得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。
- 基于状态对齐的模仿学习
提出一种基于状态对齐的模仿学习方法,旨在训练模仿者尽可能地模仿专家演示中的状态序列,该方法将本地和全局的状态对齐结合到一个强化学习框架中,并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学 - 连续状态空间中的显式探索 - 利用算法
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们 - 基于能量模型的模型规范化计划
本研究讨论利用学习到的动力学模型进行规划,并提出使用环境状态转换的能量估计来规范该模型以实现样本有效学习,结果表明该方法可以在几分钟的经验中实现具有竞争力表现的学习。
- 机械系统结构学习的通用框架
本文提出了使用神经网络对力学系统的 Lagrangian 以及作用在该系统上的广义力进行建模的方法,说明该方法优于黑匣子模型的数据效率和模型强化学习性能,并进行了系统研究以验证该方法融入先前知识提高了其数据效率。
- 基于模型的价值估计,用于高效的无模型强化学习
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。