具有结构化世界模型的样本高效机器人学习
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
我们提出了一种方法,通过仅利用许多不同设置的少量实际交互轨迹,使机器人能够有效地学习操纵技能,并由此建立了一个基于人的视频的结构化行为空间,从而使不同的机器人能够在复杂环境下学习各种操纵技能。
Aug, 2023
通过对比无监督学习和介入不变正则化的使用,提出了一种学习不变特征的世界模型,以改善强化学习在视觉导航等日常任务中的限制,并在 iGibson 基准测试中取得显著的性能提升。
Dec, 2023
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的 RL 框架。
Dec, 2022
通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。
Oct, 2023
本文说明了使用结构化机械模型取代黑盒神经网络在机器人动力学建模上具有的优势,包括数据效率、易于应用先前知识和易于与基于模型的控制技术结合使用。在多个仿真机器人领域中,该方法可以从有限的数据中更好地推广和产生更可靠的基于模型的控制器。
Apr, 2020
使用深度强化学习隐式地在仿真环境中学习潜在的状态表示,并通过无标签的真实机器人数据将其调整到真实环境中,以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失,提出了一种更加有效的方法,成功地训练基于视觉的强化学习智能体来堆叠方块。
Oct, 2019
通过不断监测环境来观察任务的离散高级状态,机器人控制器可以根据不同的传感器模式来决定执行哪些控制器,从而实现对干扰的鲁棒性。我们通过将该思想作为离散状态的概率滤波器来实现这一目标。基于这个框架,我们提出了一个机器人系统,可以惊人地稳定地打开抽屉并从中抓取网球。
May, 2022