通过模拟对实际现实进行调和:一种用于强大操纵的实际到模拟到实际的方法
本文提出了一种新的机器人操作方法,该方法利用了物体本身的运动学习,通过使用物理模拟器中的对象运动策略生成辅助奖励,称为模拟运动演示奖励(SLDRs),该方法可以在不需要人类演示或昂贵成本的情况下,通过强化学习来掌握机器人操作技能,从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。
Oct, 2019
本文提出了一种中继策略学习的方法,可用于模仿和强化学习,旨在解决多阶段、长视程机器人任务,包括模仿学习阶段和强化学习阶段,通过学习目标条件分层策略和使用新颖的数据重新标记算法简化了政策学习问题,并证明了该方法在挑战性的厨房模拟环境中解决多阶段、长视程操作任务的有效性。
Oct, 2019
本文提出了一种名为LfGP的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP利用了多个探索性辅助任务的专家演示,强制代理程序探索标准AIL可能会忽略的状态和动作,实验结果表明,LfGP在多任务机器人操纵领域中显著优于AIL和行为克隆。
Dec, 2022
本文提出了一个基于深度强化学习的机器人pick-and-place任务的共识型模拟现实联合训练算法(CSAR),目的是在模拟和实际环境中都实现高效和有效的策略优化。实验表明,模拟中的最佳策略并不一定适用于模拟和实际环境的学习。同时,越多的模拟代理越有利于模拟现实的训练。
Feb, 2023
本文介绍一种与专家数据收集环境不同的Imitation Learning(模仿学习)方法,该方法结合行为克隆和计划策略,通过将代理人带回专家访问的状态解决数据分布漂移问题,以提高性能。作者将这一算法命名为POIR,并在实际的机器人操作模拟器中进行了多种实验测试,并表明该学习策略对于不同的初始状态分布和嘈杂的动态具有很好的鲁棒性。
May, 2023
机器人学中的评估与模拟环境之间的控制和视觉差异是可靠的模拟评估的关键挑战,在创建适用于常见真实机器人设置的SIMPLER模拟环境的基础上,我们证明了在这些环境中的政策表现与真实世界中的表现之间的强相关性,同时准确反映了真实世界的政策行为模式,通过我们的工作流以及开源的SIMPLER环境,促进了通用操作策略和模拟评估框架的研究。
May, 2024
我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在Franka Kitchen环境上取得了最新的最佳性能,只需要10个演示且没有奖励标签,同时解决了复杂的灵巧操作任务。
May, 2024
本研究解决了机器人在复杂顺序任务中的学习难题,特别是在长时间操作任务中缺乏可靠性保证的问题。通过将长时间演示分段并学习全局稳定的动态系统策略,该方法提升了任务成功率,减少了所需训练数据。实验结果表明,该方法在仿真与实际应用中均表现出良好的转移能力,显示了重大的潜在应用价值。
Oct, 2024
本研究针对传统强化学习在真实环境中实现复杂机器人操控技能的困难,提出了一种基于人机协作的视觉强化学习系统,展示了其在多个灵巧操控任务上的优异表现。通过整合示范、人工修正与高效的强化学习算法,该方法在1到2.5小时的训练内实现了近乎完美的成功率和快速的循环时间,显著超越了过去的模仿学习和强化学习方法。
Oct, 2024