Jun, 2023

机器技能综合的语言到奖励转换

TL;DR本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价,证明了这种方法成功解决了 90% 的任务,并在真实机器人手臂上验证了方法的有效性,包括非握持推动等复杂操作技能。