模仿复杂轨迹：连接低层稳定性和高层行为

Jul, 2023

模仿复杂轨迹：连接低层稳定性和高层行为

Imitating Complex Trajectories: Bridging Low-Level Stability and High-Level Behavior

Adam Block, Daniel Pfrommer, Max Simchowitz

TL;DR我们提出了一个理论框架，用于研究非马尔可夫、潜在多模态（即 “复杂的”）专家示范在非线性动力系统中的模仿。

Abstract

We propose a theoretical framework for studying the imitation of stochastic, non-Markovian, potentially multi-modal (i.e. "complex" ) expert demonstrations in →

imitation nonlinear dynamical systems stochastic total variation continuity data-augmentation

发现论文，激发创造

关于稳定约束模仿学习的样本复杂度

在模仿学习中，专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响，本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法，通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。

Feb, 2021

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022

层次化模仿学习的随机环境

針對環境的隨機性，本研究提出了 Robust Type Conditioning (RTC) 方法，通過對隨機抽樣的代理類型進行對抗性訓練，實現了分佈的逼真性，並在任務性能上保持或提升了與最先進方法相比的表現。

Sep, 2023

TRAIL: 近乎最优的次优数据模仿学习

本研究提出了一种利用离线数据集学习隐含动作空间和转换模型的训练目标，通过此目标实现提高下游模仿学习的样本效率，该目标可用于廉价的次优或非任务特异性轨迹数据集。TRAIL 算法是一种能够增加样本效率的模型，其能通过学习基于能量的转换模型，对动作空间进行重新参数化，同时结合离线数据集和得到的隐含动作空间，优化模仿学习。实验结果表明，TRAIL 能够使得基线模仿学习的性能提高 4 倍。

Oct, 2021

全球稳定的神经仿真策略

通过引入稳定神经动力系统（SNDS），我们提出了一种保证稳定性的模仿学习方案，该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂，实验结果表明我们的方法解决了以往模仿学习方法中的不稳定性、准确性和计算强度问题，为复杂规划场景中的稳定策略学习提供了有希望的解决方案。

Mar, 2024

时间逻辑模仿：从演示中学习满足规划的动作策略

本文提出使用状态与运动的离散抽象方法，通过连续策略学习，基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。

Jun, 2022

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

基于观测和示例的离线模仿的简明解决方案：可能包含不完整轨迹

提出了一种从观测中进行离线模仿的方法，并使用轨迹感知的加权行为克隆策略，提高了鲁棒性和效果。

Nov, 2023

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

通过正式抽象实现非高斯噪声动态系统的鲁棒控制

该研究论文提出了一种新颖的控制器合成方法，它不需要任何明确表示噪声分布的方式，而是通过将控制系统抽象为捕捉噪声的有限状态模型，然后使用从场景方法中的工具来计算可能正确的限制，基于一些噪声的有限数量样本。通过缩小合成过程的复杂性，该方法在实际控制系统上的应用具有广泛的适用性。

Jan, 2023