使用时间变分推断学习机器人技能
本文研究了如何在不同领域中转移知识和适应环境,提出了使用基于Q函数的方法来寻找一个可适应不同潜在变量值的主策略,使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。
Sep, 2018
该研究旨在通过学习使用感知运动基元来解决复杂的长期规划操作问题,其需要将基本技能组合成新的技能来推广应用于广泛的问题中,同时使用高效的主动学习和采样方法,将学习和规划方法结合来规划各种复杂的动态操作任务。
Jun, 2020
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法,以学习高层策略的加速方式,其中序列模型形成潜在空间先验,加速了高层策略的学习速度和最终性能。
Oct, 2022
这篇论文介绍了一种层级建模范式,结合了概率回归模型和贝叶斯非参数方法,采用了一种逼近非线性函数的局部回归技术,提出了两种有效的变分推理技术来学习这些模型,此方法可适应数据并涵盖无限数量的组件,本文对大型逆动力学数据集进行了验证和测试。
Nov, 2022
Constrained Equation Learner Networks提出了一种新的受限回归学习框架,用于编程演示中的轨迹适应问题,通过学习一组分析表达式作为基函数,利用它们来最小化与训练数据的偏差,同时满足所需的适应性约束来解决轨迹适应问题,通过在仿真实验和实际机器人任务中的比较,实验证明该方法相对于现有方法能够提高机器人技能的泛化性和适应性。
Nov, 2023
通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量,以改进推断奖励和策略的质量,实验表明我们的框架通过极大地提高学习控制策略所需的演示数量,克服了之前文献的缺点。
Nov, 2023
我们提出了一种从专家示范中发现技能的算法,该算法首先利用大型语言模型对轨迹进行初步分割,然后采用层次变分推理框架结合语言模型生成的分割信息,通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡,我们引入了一种基于最小描述长度原则的新辅助目标,有助于指导这一技能发现过程。我们的结果表明,使用我们的方法装备的代理能够发现有助于加速学习的技能,并在BabyAI(一个网格世界导航环境)以及ALFRED(一个家庭仿真环境)的新长期任务中胜过基线技能学习方法。
Feb, 2024
本研究解决了机器人在复杂顺序任务中的学习难题,特别是在长时间操作任务中缺乏可靠性保证的问题。通过将长时间演示分段并学习全局稳定的动态系统策略,该方法提升了任务成功率,减少了所需训练数据。实验结果表明,该方法在仿真与实际应用中均表现出良好的转移能力,显示了重大的潜在应用价值。
Oct, 2024