ReIL: 基于强化干预的模仿学习框架
通过使用强化学习和用户干预信号本身作为奖励函数,我们提出了一种新的方法来改进交互式模仿学习,克服了潜在次优人类专家的限制,并在挑战性的控制问题中具有较好的性能。
Nov, 2023
RILe 是一个学生 - 教师系统,通过根据学生的表现和与专家演示的一致性动态调整奖励函数,实现对不完美数据的鲁棒性,并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。
Jun, 2024
将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛,通过直接处理视觉输入无需明确状态估计,我们提出了一种结合强化学习和模仿学习优势的新型训练框架,通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况下驾驶四轴飞行器穿过赛道的优秀性能和鲁棒性。
Mar, 2024
利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习(IBRL),在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率,是 RLPD 方法的 6.4 倍成功率的新亮点。
Nov, 2023
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明,IRLEED 具有适应性和有效性,成为从不完善演示中学习的通用解决方案。
Feb, 2024
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
研究了基于模块化框架的表示学习算法在模仿学习中的应用,发现对于基于图像的模仿学习,在多个环境套件中,现有的表示学习算法相对于图像增强的精心调整的基准测试提供的价值有限,并对此结果进行了解释。
May, 2022
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
这篇论文旨在介绍模仿学习(IL)及其基本假设和方法,提供领域内最新进展和新兴研究的详细描述,讨论了解决模仿学习相关挑战的常见方法,并提出未来研究的潜在方向,全面指导机器人和人工智能领域中日益增长的模仿学习研究。
Sep, 2023
本研究通过 pointer-generator 文本生成模型的实验对比,表明在生成同义句时,模仿(IL)学习比强化(RL)学习更有效且优于目前的同类方法。
Aug, 2019