我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
该论文提出了一种简化的能量基模仿学习(EBIL)框架,该框架使用分数匹配来估计专家能量,然后使用其作为强化学习算法中的奖励来学习策略,以实现与目前现有算法相当的性能水平。
Apr, 2020
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法 MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法 OAL 的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示 MB-TAIL 的泛化能力,并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。
Jun, 2023
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
Jun, 2024
提出了一种新的模拟学习元算法 IMPLANT,利用决策时间规划来纠正模仿策略的复合误差,从而实现比基准模仿学习方法更好的实验效果,在挑战性测试时动态运行。
Apr, 2022
本文提出了模仿模型方法,将模仿学习和目标导向规划相结合,使用概率预测模型生成解释性的专家级轨迹,以实现特定目标。在动态模拟自主驾驶任务中,我们的方法显著优于六种模仿学习方法和一种基于规划的方法,并可以从专家演示中高效地学习。此外,我们的方法对于目标规范不良的情况具有鲁棒性。
Oct, 2018
我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索,通过专家数据在训练过程中引导学习者,从而缩小小型逆强化学习问题的交互过程,取得了较好的策略表现。
Feb, 2024