扩散模型增强的行为克隆
提出了一种称作“软Q模仿学习”的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准Q学习或离线策略演员-评论家算法。
May, 2019
本文提出了一种基于分歧最小化的Imitation Learning方法,即$f$-MAX,将IRL方法如GAIL和AIRL联系起来并揭示了它们的算法特性,通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。
Nov, 2019
在机器人策略学习中,使用隐式模型的监督策略学习通常表现更好,这种策略不需要奖励信息,可以学习复杂的行为,并能够在具有高度组合复杂性和毫米级精度要求的任务中学习人类示范的复杂行为。
Sep, 2021
本研究提出了一种称为程序克隆的技术,它使用监督序列预测来模拟专家计算的过程,从而实现了对专家行为中间计算的模仿。该方法不仅学习了如何执行一个特定的操作,更重要的是学习了执行该操作的过程和原因。实验证明,使用程序克隆学习中间计算可以在未知环境配置中产生显著的泛化效果。
May, 2022
本研究在于探讨将扩散模型用于观察到行为模型,以模仿人类在连续环境中的行为。研究发现扩散模型可充分学习联合行动空间的表达分布,具有表现力强等优点。实验结果表明,扩散模型能够精确匹配真实人类行为及控制任务等多方环境表现。
Jan, 2023
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
本文介绍了一种使用离线演示数据集进行训练的增强行为克隆代理的离线算法DiffClone,并在真实在线物理机器人上测试了该方法的有效性。
Jan, 2024
使用Temporally Entangled Diffusion (TEDi)框架,改进基于扩散的策略提取和训练,在保持性能的同时大幅提升采样速度。
Jun, 2024
本研究解决了现有扩散政策在性能与行动时间范围之间的权衡问题,提出了一种新颖的潜在权重扩散方法(LWD),通过在潜在空间中学习策略分布,以生成更小的策略网络并减少推理查询。实验表明,在Metaworld MT10基准上,LWD在实现更高成功率的同时,推理模型规模可减少约18倍,且在较长行动时间范围内表现优于传统扩散政策。
Oct, 2024