通过轨迹生成学习通用工具使用技能
通过我们提出的一种新方法,仅使用单个演示,我们实现了工具使用行为的强化学习,通过给予初值设定和形状奖励信号的引导来解决多指机械手抓取配置的推广问题,并实现复杂的工具使用任务并在测试时推广到未见过的工具。
Jul, 2023
提出一种基于神经网络的模型 ToolNet,可通过人类示范学习常识知识,使机器人具有了适应新场景使用未知工具的能力,并结合常识知识仓库来预测最佳工具,结果表明该模型的正确率和普适性较传统图神经网络有明显提高。
Jun, 2020
本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法,该方法可以扩展最近开发的策略搜索方法,并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹,然后将这些轨迹统一到一个单一的控制策略中。
Jan, 2015
通过深度学习和强化学习相结合的方法,本文提出了一种学习策略来解决机器人的操纵任务,并展示了比先前方法更高的样本效率、对未见过任务的适应性以及在实际约束条件下复杂性设计和控制策略之间的权衡。
Nov, 2023
通过机器学习技术,训练视觉和物理多物互动理解的模型,并开发了一个基于样本的优化器来实现复杂的工具使用任务,实验表明目前此方法可以通过原始像素输入解决多种复杂的工具使用任务,能够感知和使用新的对象作为工具,同时根据需要灵活选择是否使用工具。
Apr, 2019
SoftGPT 是一种预训练软物体操纵技能学习模型,具有三维异质图表示和基于 GPT 的动力学模型,通过引入先前的知识,可以有效地学习各种软物体操纵技能,包括直接从人类演示中学习。
Jun, 2023
该研究论文探讨了使用粗略轨迹草图作为任务表示的方法,称为 RT-Trajectory,该方法通过有效地执行新任务,克服了现有语言条件和目标条件策略的局限性,具有广泛的泛化能力。
Nov, 2023
本文旨在研究如何通过生成模型来让一个通用机器人学习视觉契合性的表征,以便于机器人可以在新环境中使用它的模型进行采样,进而进一步训练其策略从而达成其目标。这种做法可以被用于训练以原始图像输入为操作对象的目标编码策略,并可以通过我们提出的契合性导向探索机制快速地学习如何操作新对象。我们展示,通过五分钟的在线学习就可以在新场景下使用之前的数据训练机器人完成抽屉打开,抓取和放置的任务。
Jun, 2021
本文介绍了一种基于协同在线学习框架的方法,通过给机器人提供用户轨迹的偏好反馈而不是直接演示最优轨迹来教授其物体操作任务,理论上说明了该方法的可行性并在多项超市结帐任务中验证了其普适性。
Jun, 2013