Feb, 2024

使用决策变换器进行四足动物运动的微型强化学习

TL;DR我们提出了一种方法,将模仿学习应用于资源受限的机器人平台,通过将模仿学习问题视为条件序列建模任务,使用专家示范增强的自定义奖励训练决策变压器,并利用量化和修剪等软件优化方案压缩生成模型,在 Isaac Gym 仿真环境中验证了该方法,在资源受限的四足机器人 Bittle 上实现了自然步态,并通过多次模拟展示了修剪和量化对模型性能的影响,结果表明,量化(降至 4 位)和修剪可将模型大小减小约 30%,同时保持有竞争力的奖励,使模型可以在资源受限的系统中投入使用。