Dec, 2023

从符号化行为描述中推导强化学习的奖励函数 - 关于双足步行

TL;DR从符号描述中生成物理运动行为是人工智能和机器人技术中一个长期存在的挑战,本文提出了一种新颖的方法,从符号描述中找到奖励函数,并将该方法应用于双足行走领域。通过将行走机器人建模成一个混合自动机,并使用罗盘行走器推导出一个能激励遵循混合自动机循环的奖励函数,该方法减少了强化学习控制器的训练时间,同时提高了最终的行走速度,可作为从符号 AI 和推理中生成奖励函数的蓝图。