基于能量的模仿学习
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
Jun, 2024
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
提出了 EfficientImitate 这一基于规划的模仿学习方法,成功地将两类看似不兼容的模仿算法:行为克隆和对抗模仿学习,自然地统一到了一个框架中,实现了在性能和样本效率方面的高水平。
Oct, 2022
通过引入排名噪声对比估计(R-NCE)、可学习的负采样器和非对抗联合训练等关键因素,我们证明了高维连续空间中能量模型在训练时并不是不切实际的,我们的训练算法使能量模型作为策略在多模态路径规划和有接触力量推动等难度较高的基准测试中与扩散模型和其他最先进方法相竞争甚至表现更好。
Sep, 2023
使用基于生成对抗神经网络的方法进行模仿学习具有许多优点,但是由于使用了无模型强化学习算法,需要与实际环境进行大量交互来训练生成器。为此,提出了基于模型的熵正则化模仿学习算法(MB-ERIL),通过基于熵正则化马尔可夫决策过程,减少与实际环境的交互次数。MB-ERIL 使用了两个判别器,通过结构化判别器,MB-ERIL 的学习效率得到了提高。计算机模拟和真实机器人实验表明,与基线方法相比,MB-ERIL 取得了具有竞争力的性能,并显着提高了样本效率。
Jun, 2022
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
在缺乏奖励信号的环境中,我们提出了一种基于贝叶斯的解决方案(BIG),通过使用专家演示和指定未演示的探索性行为成本的先验,来推断贝叶斯逆强化学习(IRL)中的奖励后验,从而学习到基于贝叶斯的最优策略。我们的实验表明,BIG 能够在测试时适应模仿差距,同时在不存在模仿差距时仍能通过专家演示学习到最优行为。
Jun, 2024