从游戏中学习潜在计划
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
通过学习无结构和未经整理的数据来生成语言和视觉方面的方法成为了主流。本论文研究了从带有事后语言标签的无结构游戏数据中学习目标导向技能策略的问题,并借助扩散模型的进展,从无结构游戏数据中提取机器人技能。
Dec, 2023
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016
本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法,该方法可以扩展最近开发的策略搜索方法,并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹,然后将这些轨迹统一到一个单一的控制策略中。
Jan, 2015
LEAGUE 是一种集成任务计划和技能学习框架,利用任务计划器的符号界面指导基于深度强化学习的技能学习,同时创建抽象状态空间以实现技能重用,并可以在任务计划系统内学习操作技能,不断提高其能力并解决更多任务。
Oct, 2022
该研究旨在通过直接进行视频预测来实现自监督机器人学习,通过引入具有时间跳转连接的视频预测模型和新颖的规划准则和行动空间公式,研究表明该模型在机器人操作中具有很好的性能。
Oct, 2017
本文提出了一种协作对抗式学习方法,用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度,获得可控技能集的单一多才策略。实验结果表明,借助生成式对抗模仿学习框架中的无监督技能发现,出现了成功完成任务的新颖有用技能。最后,在名为 Solo 8 的敏捷四足机器人上测试了所获得的多才多艺策略,并呈现出编码在演示中的各种不同技能的忠实复制。
Sep, 2022
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
语言驱动的机器人技能研究中,通过利用大规模语言模型的高级推理能力应用于低级机器人控制,继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架,通过提供的场景描述和机器人配置生成任务提案,并逐步获得新的技能来完成任务,使用强化学习过程以及独立的视觉 - 语言模型确保学到的行为的可靠性和可信度,从而使机器人能够高效地提出和完成高级任务。
May, 2024
本研究旨在应对层次化强化学习中确定合适的低级策略的挑战,提出基于不对称自我对弈的无监督学习方案,自动学习环境中子目标的好的表示和可执行的低级策略,从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明,该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。
Nov, 2018