模仿复杂轨迹:连接低层稳定性和高层行为
在模仿学习中,专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响,本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法,通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。
Feb, 2021
針對環境的隨機性,本研究提出了 Robust Type Conditioning (RTC) 方法,通過對隨機抽樣的代理類型進行對抗性訓練,實現了分佈的逼真性,並在任務性能上保持或提升了與最先進方法相比的表現。
Sep, 2023
本研究提出了一种利用离线数据集学习隐含动作空间和转换模型的训练目标,通过此目标实现提高下游模仿学习的样本效率,该目标可用于廉价的次优或非任务特异性轨迹数据集。TRAIL 算法是一种能够增加样本效率的模型,其能通过学习基于能量的转换模型,对动作空间进行重新参数化,同时结合离线数据集和得到的隐含动作空间,优化模仿学习。实验结果表明,TRAIL 能够使得基线模仿学习的性能提高 4 倍。
Oct, 2021
通过引入稳定神经动力系统(SNDS),我们提出了一种保证稳定性的模仿学习方案,该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂,实验结果表明我们的方法解决了以往模仿学习方法中的不稳定性、准确性和计算强度问题,为复杂规划场景中的稳定策略学习提供了有希望的解决方案。
Mar, 2024
本文提出使用状态与运动的离散抽象方法,通过连续策略学习,基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。
Jun, 2022
本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。
Jul, 2017
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
该研究论文提出了一种新颖的控制器合成方法,它不需要任何明确表示噪声分布的方式,而是通过将控制系统抽象为捕捉噪声的有限状态模型,然后使用从场景方法中的工具来计算可能正确的限制,基于一些噪声的有限数量样本。通过缩小合成过程的复杂性,该方法在实际控制系统上的应用具有广泛的适用性。
Jan, 2023