模仿学习:清晰的实现
提出了一种新的模拟学习元算法 IMPLANT,利用决策时间规划来纠正模仿策略的复合误差,从而实现比基准模仿学习方法更好的实验效果,在挑战性测试时动态运行。
Apr, 2022
本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架,并使用一种新型排名误差来实例化该框架,从而同时学习专家演示和偏好,实现了两种模态的优势,并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。
Feb, 2022
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
研究了基于模块化框架的表示学习算法在模仿学习中的应用,发现对于基于图像的模仿学习,在多个环境套件中,现有的表示学习算法相对于图像增强的精心调整的基准测试提供的价值有限,并对此结果进行了解释。
May, 2022
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
Jun, 2024
通过引入一种新的奖励学习模块,可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码,提高模块在环境中的动力学建模能力,并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明,我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法,即使只有一次演示,性能也是演示的 5 倍。
Jun, 2020
这篇论文旨在介绍模仿学习(IL)及其基本假设和方法,提供领域内最新进展和新兴研究的详细描述,讨论了解决模仿学习相关挑战的常见方法,并提出未来研究的潜在方向,全面指导机器人和人工智能领域中日益增长的模仿学习研究。
Sep, 2023
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
本文提出了一种基于增强和干预的多任务学习框架 --ReIL,该框架旨在实现在无需过多监督和调整的情况下,在真实环境中训练代理。实验结果表明,相较于其他基于干预的方法,ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法,能够在稀疏监督信号的情况下快速学习并保持性能。
Mar, 2022
通过开发一套简单的诊断任务,并对常见的奖励学习和模仿学习算法进行评估,本研究证实算法的性能高度依赖于实现细节,其中还揭示了套件如何确定设计缺陷并快速评估解决方案的案例研究。
Dec, 2020