纯净演示中的模仿学习
本文提出了一种基于自对抗的无标签专家演示的算法,利用全面学习方法,动态地抽样专家演示,并与不断优化的策略进行比对,可以优化生成的轨迹,实现了动态的自我适应学习。
Feb, 2023
自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法,利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变,并利用噪声信息预测当前策略和演示者之间的扩散步骤,进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示,并提供了其理论基础。通过对 MuJoCo 任务的实证评估,我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略,并有效地过滤掉低于当前策略的演示。
Oct, 2023
本研究提出了使用置信度评分进行模仿学习,通过仅仅给予一小部分次优演示的置信度评分,有效地从次优演示中学习。此外,提出了两种基于置信度的模仿学习方法,即 2IWIL 和 IC-GAIL。理论和实证结果都表明,这些方法显著提高了模仿学习的性能。
Jan, 2019
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
本文提出解决离线模仿学习中存在数据噪音或离群点的问题的新型算法,通过最小化 Median-of-Means 目标函数对策略进行准确估计,实现精确的离群点估计和稳健性,同时实验证明在存在异常数据的情况下与传统 Behavior Cloning 算法相比有相同的误差和样本复杂性保证。
Jan, 2022
本文提出了模仿式演示学习(Imitation-Demo)方法,通过对人类审查行为的明确模仿来加强演示学习,进而增强提示和演示之间的关联性,从而在 14 个分类语料库中取得了显著的性能提升。
Aug, 2022
单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解,在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中,该方法胜过现有的 IL 方法且达到专家级性能。
Feb, 2024
证明扩散模型在网络入侵检测中净化对抗样本方面的有效性,通过对扩散参数的全面分析,识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是,该研究揭示了扩散噪声和扩散步骤之间的关系,对该领域具有重要贡献。实验在两个数据集上进行,并针对 5 种对抗攻击进行了测试。实现代码公开可用。
Jun, 2024