基于反向模型的少量演示稳健仿真

Oct, 2022

基于反向模型的少量演示稳健仿真

Robust Imitation of a Few Demonstrations with a Backwards Model

Jung Yeon Park, Lawson L.S. Wong

TL;DR本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Abstract

behavior cloning of expert demonstrations can speed up learning optimal policies in a more sample-efficient way over reinforcement learning. However, the policy cannot extrapolate well to unseen states outside of

behavior cloning reinforcement learning covariate shift generative backward dynamics model imitation learning

发现论文，激发创造

Robust Imitation by Return-to-Distribution Planning

本文介绍一种与专家数据收集环境不同的 Imitation Learning（模仿学习）方法，该方法结合行为克隆和计划策略，通过将代理人带回专家访问的状态解决数据分布漂移问题，以提高性能。作者将这一算法命名为 POIR，并在实际的机器人操作模拟器中进行了多种实验测试，并表明该学习策略对于不同的初始状态分布和嘈杂的动态具有很好的鲁棒性。

May, 2023

回放：必须不停地倒转

提高样本效率是模型自由强化学习中的一个挑战，本文提出了一种名为 Backplay 的方法，利用单个演示构建任务的课程并以该演示的末端为起点进行训练，最终在可竞争方法中优化训练速度。

Jul, 2018

如何在离线模仿学习中利用多样化的示范

离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

May, 2024

零样本模仿策略通过演示数据集搜索

使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Jan, 2024

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

模仿复杂轨迹：连接低层稳定性和高层行为

我们提出了一个理论框架，用于研究非马尔可夫、潜在多模态（即 “复杂的”）专家示范在非线性动力系统中的模仿。

Jul, 2023

模仿策略与环境的误差界

通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异，本文发现前者相比后者可以减少复合误差，具有更好的样本复杂度，同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型，提出一种全新的模型导向的增强学习应用方向。

Oct, 2020

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022