本文提出了一种基于增强和干预的多任务学习框架 --ReIL,该框架旨在实现在无需过多监督和调整的情况下,在真实环境中训练代理。实验结果表明,相较于其他基于干预的方法,ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法,能够在稀疏监督信号的情况下快速学习并保持性能。
Mar, 2022
本研究提出了 HG-DAgger 算法,该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体,它不仅训练一个初学者策略,还学习了基于模型不确定性的风险度量的安全阈值,以预测状态空间中不同区域的完全训练初学者的性能,在模拟和实际的自动驾驶任务中,HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。
Oct, 2018
我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索,通过专家数据在训练过程中引导学习者,从而缩小小型逆强化学习问题的交互过程,取得了较好的策略表现。
Feb, 2024
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生成多样化的行为来匹配专家数据的分布。
Nov, 2023
利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习(IBRL),在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率,是 RLPD 方法的 6.4 倍成功率的新亮点。
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛,通过直接处理视觉输入无需明确状态估计,我们提出了一种结合强化学习和模仿学习优势的新型训练框架,通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况下驾驶四轴飞行器穿过赛道的优秀性能和鲁棒性。
Mar, 2024
这篇论文旨在介绍模仿学习(IL)及其基本假设和方法,提供领域内最新进展和新兴研究的详细描述,讨论了解决模仿学习相关挑战的常见方法,并提出未来研究的潜在方向,全面指导机器人和人工智能领域中日益增长的模仿学习研究。
Sep, 2023
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021