本文介绍一种与专家数据收集环境不同的 Imitation Learning(模仿学习)方法,该方法结合行为克隆和计划策略,通过将代理人带回专家访问的状态解决数据分布漂移问题,以提高性能。作者将这一算法命名为 POIR,并在实际的机器人操作模拟器中进行了多种实验测试,并表明该学习策略对于不同的初始状态分布和嘈杂的动态具有很好的鲁棒性。
May, 2023
提高样本效率是模型自由强化学习中的一个挑战,本文提出了一种名为 Backplay 的方法,利用单个演示构建任务的课程并以该演示的末端为起点进行训练,最终在可竞争方法中优化训练速度。
Jul, 2018
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
Jan, 2024
我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能,只需要 10 个演示且没有奖励标签,同时解决了复杂的灵巧操作任务。
本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。
Jul, 2017
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
我们提出了一个理论框架,用于研究非马尔可夫、潜在多模态(即 “复杂的”)专家示范在非线性动力系统中的模仿。
Jul, 2023
通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异,本文发现前者相比后者可以减少复合误差,具有更好的样本复杂度,同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型,提出一种全新的模型导向的增强学习应用方向。
Oct, 2020
本文提出一种置信度感知的双向离线模型想象算法,使用训练好的双向动力学模型和推进策略来扩充离线数据集,以增强在线学习的推广能力。实验结果表明,该算法显著提高了现有模型无关的线下 RL 算法的性能,并与基线方法相比获得了竞争性或更好的得分。
Jun, 2022