来自不完美演示的模仿学习
本文提出了一种通用框架,称为置信度感知式模仿学习(CAIL),能够从各种最优性的演示中学习置信度评分和一个良好表现策略,广泛应用于机器人控制领域。
Oct, 2021
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022
本文提出了 SEILO,这是一种新颖的 ILO 的样本有效的 on-policy 算法,结合了标准的对抗性模仿学习和逆动力学建模,通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈,我们实证表明,相比于其他现有的 on-policy ILO 和 ILD 方法,我们所提出的算法需要更少的与环境的交互才能实现专家绩效。
Jun, 2023
本文提出了一种基于自对抗的无标签专家演示的算法,利用全面学习方法,动态地抽样专家演示,并与不断优化的策略进行比对,可以优化生成的轨迹,实现了动态的自我适应学习。
Feb, 2023
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明,IRLEED 具有适应性和有效性,成为从不完善演示中学习的通用解决方案。
Feb, 2024
自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法,利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变,并利用噪声信息预测当前策略和演示者之间的扩散步骤,进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示,并提供了其理论基础。通过对 MuJoCo 任务的实证评估,我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略,并有效地过滤掉低于当前策略的演示。
Oct, 2023
单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解,在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中,该方法胜过现有的 IL 方法且达到专家级性能。
Feb, 2024
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023