扩散模型增强的行为克隆
本研究提出了基于行为克隆的观察学习技术,旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务,并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。
May, 2018
本文介绍了行为克隆(BC)的关键缺陷,由于 BC 是以最大似然为目标函数,因此在以高斯函数表示学习代理的策略时,BC 对状态条件专家动作分布求取均值导致了问题。 为了解决这个问题,我们引入了 ABC 方法,它包含 GAN 训练的元素,具有寻找众数的性质,并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估,并表明它胜过标准的 BC。
Nov, 2022
本研究在于探讨将扩散模型用于观察到行为模型,以模仿人类在连续环境中的行为。研究发现扩散模型可充分学习联合行动空间的表达分布,具有表现力强等优点。实验结果表明,扩散模型能够精确匹配真实人类行为及控制任务等多方环境表现。
Jan, 2023
通过利用最优和次优策略收集的数据集,我们提出了一种可扩展的基于模型的离线模仿学习算法框架,其最坏子优性与专家样本相关的时间视野呈线性,实验证明在模拟连续控制领域中,该算法始终表现优于行为克隆。
Jun, 2022
本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
Jan, 2022
提出 ADR-BC,通过增强密度支持的行为克隆方法,优化策略并避免多步强化学习中的累积偏差,实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL,并且在 Adroit 和 Kitchen 领域中使用真实奖励时比 Implicit Q Learning (IQL) 有 89.5% 的改进。
May, 2024
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行验证。
May, 2019