本研究提出了一种基于技能空间的模型强化学习(SkiMo)框架,使用技能动力学模型来规划,以实现精确和有效的长期规划,从而使学习复杂任务变得更加高效。该框架在导航和操作领域的实验结果表明,对于模型强化学习和技能强化学习,能够扩大时间范围并提高示范效率。
Jul, 2022
本论文结合模型推理控制与模型无关的深度强化学习方法,提出一种更加高效的学习框架,并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。
Aug, 2019
本文提出了一种基于对比学习的无监督技能发现方法,通过得到相似的行为来表征同一种技能, 并使得不同技能产生不同的行为,同时增加状态熵以获得更好的状态覆盖率,实验结果表明,该方法能够产生各种远程技能,并在下游任务中达到有竞争力的表现。
May, 2023
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021
通过引入基于元学习的算法,该文探讨了在复杂或动态环境中,即使存在不完美的模型,不严格追求模型准确度也能提高模型的实用性,并通过实验验证了算法的有效性。
May, 2022
为实现人工智能在团队比赛中与人类的合作,本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法,并通过实验验证其可行性。
Dec, 2019
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
本篇论文研究了如何通过自主互动学习动态距离,并使用它们来提供良好的奖励函数,以便无需人为设计奖励函数或目标示例,使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。
Jul, 2019
提出一种高效的无监督强化学习框架(EUCLID),其中引入了一种新颖的模型融合范式,在预训练阶段共同预训练动力学模型和无监督探索策略,从而更好地利用环境样本,提高下游任务的抽样效率,并在操纵和运动领域的实验结果中表现出高样本效率的最先进性,基本解决了基于状态的 URLB 基准问题,并达到了 100k 微调步数下 State-of-the-Art 的性能,相当于 DDPG 的 20 倍数据交互步数的性能。
Oct, 2022
语言驱动的机器人技能研究中,通过利用大规模语言模型的高级推理能力应用于低级机器人控制,继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架,通过提供的场景描述和机器人配置生成任务提案,并逐步获得新的技能来完成任务,使用强化学习过程以及独立的视觉 - 语言模型确保学到的行为的可靠性和可信度,从而使机器人能够高效地提出和完成高级任务。
May, 2024