使用时间变分推断学习机器人技能

Jun, 2020

使用时间变分推断学习机器人技能

Learning Robot Skills with Temporal Variational Inference

Tanmay Shankar, Abhinav Gupta

TL;DR该论文提出了一个机器人选项无监督学习的框架，利用连续潜变量表示选项，然后通过基于时间分解的变分推理来学习控制策略和高层策略，以及演示各种任务的机器人。

Abstract

In this paper, we address the discovery of robotic options from demonstrations in an unsupervised manner. Specifically, we present a framework to jointly learn low-level →

发现论文，激发创造

VPE: 变分策略嵌入用于迁移强化学习

本文研究了如何在不同领域中转移知识和适应环境，提出了使用基于Q函数的方法来寻找一个可适应不同潜在变量值的主策略，使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。

Sep, 2018

学习机器人技能组合模型，用于任务和动作规划

该研究旨在通过学习使用感知运动基元来解决复杂的长期规划操作问题，其需要将基本技能组合成新的技能来推广应用于广泛的问题中，同时使用高效的主动学习和采样方法，将学习和规划方法结合来规划各种复杂的动态操作任务。

Jun, 2020

可执行模型: 无监督离线强化学习的机器人技能

本文提出了使用自回归进行离线机器人技能学习，并通过先前的数据学习环境的形式理解，该方法可以处理高维相机图像，可以学习到许多技能，并通过一系列技术进行训练，此方法具有较强的泛化能力，可以在多个目标之间进行目标链接，通过预训练或辅助目标学习到丰富的表示。

Apr, 2021

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

利用潜在空间先验的示范利用

本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法，以学习高层策略的加速方式，其中序列模型形成潜在空间先验，加速了高层策略的学习速度和最终性能。

Oct, 2022

层次变分混合模型用于学习动力学概率反演

这篇论文介绍了一种层级建模范式，结合了概率回归模型和贝叶斯非参数方法，采用了一种逼近非线性函数的局部回归技术，提出了两种有效的变分推理技术来学习这些模型，此方法可适应数据并涵盖无限数量的组件，本文对大型逆动力学数据集进行了验证和测试。

Nov, 2022

约束方程学习网络用于保持精度的机器人技能外推

Constrained Equation Learner Networks提出了一种新的受限回归学习框架，用于编程演示中的轨迹适应问题，通过学习一组分析表达式作为基函数，利用它们来最小化与训练数据的偏差，同时满足所需的适应性约束来解决轨迹适应问题，通过在仿真实验和实际机器人任务中的比较，实验证明该方法相对于现有方法能够提高机器人技能的泛化性和适应性。

Nov, 2023

信号时态逻辑导引的学徒学习

通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量，以改进推断奖励和策略的质量，实验表明我们的框架通过极大地提高学习控制策略所需的演示数量，克服了之前文献的缺点。

Nov, 2023

用语言导向的时间变分推断进行技能学习

我们提出了一种从专家示范中发现技能的算法，该算法首先利用大型语言模型对轨迹进行初步分割，然后采用层次变分推理框架结合语言模型生成的分割信息，通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡，我们引入了一种基于最小描述长度原则的新辅助目标，有助于指导这一技能发现过程。我们的结果表明，使用我们的方法装备的代理能够发现有助于加速学习的技能，并在BabyAI（一个网格世界导航环境）以及ALFRED（一个家庭仿真环境）的新长期任务中胜过基线技能学习方法。

Feb, 2024

长时间操作任务中稳定动态系统的单次学习

本研究解决了机器人在复杂顺序任务中的学习难题，特别是在长时间操作任务中缺乏可靠性保证的问题。通过将长时间演示分段并学习全局稳定的动态系统策略，该方法提升了任务成功率，减少了所需训练数据。实验结果表明，该方法在仿真与实际应用中均表现出良好的转移能力，显示了重大的潜在应用价值。

Oct, 2024