模仿学习中的数据质量
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
本文提出了一个基于无监督探索方法的机器人学习模型 ChronoGEM,以能够均匀涵盖可能状态空间为目标。研究了数据量和数据质量对训练通用控制器的影响,并证明数据量和数据质量对于训练高精度达成目标的策略至关重要,以达到各种连续控制情况下的高保真姿势达成。
Nov, 2022
本文介绍了一种离线模仿学习框架,Learning to Discern (L2D),用于从具有多样化质量和风格的演示中学习。通过在潜在空间中进行偏好学习,我们能够对不同风格的新演示进行评估和学习,从而提高各种任务的策略性能。
Oct, 2023
本研究基于静态离线数据,提出了 MILO 框架及算法,用于高效解决无需在线交互式的模仿学习问题,其能够成功应对较弱行为准则下的状态行为的偏移问题,最终成功模仿高水平行为准则的动作。
Jun, 2021
通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程,有效地减轻了失衡数据集所带来的挑战,我们提出了一种新颖的离线强化学习方法,并在不同程度失衡的数据集上的几个任务中评估了其优劣。
Jul, 2023
本研究通过利用少量下游专家数据有针对性地获取有关未标记数据集的信息,设计了一种新颖的机器人学习方法以有效地学习视觉运动技能。该 方法效果显著,在通过视频实景测试和实际机器人操作中超越了以往更为复杂的目标设定方法 20% 的表现
Apr, 2023
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f - 分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了 30%以上。
Mar, 2023
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021