利用预测状态表示关闭学习和规划循环
本研究提出了一种压缩PSR(预测状态表示)的学习方法,结合降维、增量矩阵分解和压缩感知等技术,用于模型学习和规划。该方法提供了一个原则性的途径来学习PSR的准确近似,大大降低了学习的计算成本,并提供了有效的正则化。
Dec, 2013
该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习,该方法包含多个状态表示学习方法,能够提高采样效率、提高性能、抗超参数变化,并编码所有相关特征。
Jan, 2019
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
该论文提出了一种基于自监督学习的学习动力学模型,该模型可用于任务规划和策略学习,避免了视觉控制任务中由于真实环境的复杂度超过模型容量所导致的训练效率低的问题。
Jul, 2020
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
Dec, 2020
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
我们学习到一种能够关联可达状态的表示方法,通过学习多步逆动力学获得一个潜在表示,并将其转换为在l2空间中关联可达状态,这种方法可以显著提高采样效率,并实现层次化规划。
Nov, 2023
本文介绍了一种自主学习的方法,通过无标注的高维真实值机器人轨迹,自动学习抽象状态和动作的可推广的基于逻辑的关系表示,形成了自动发明的类似PDDL的领域模型。通过确定性设置的实证结果表明,仅凭少量机器人轨迹就可以学习到强大的抽象表示,所学的关系表示包括但超越了高级动作的经典直观概念,并且学习的模型使得规划算法能够扩展到以前超出手工构思抽象的任务范围。
Feb, 2024