Mar, 2022

对抗性运动先验对复杂奖励函数的良好替代

TL;DR训练高维模拟智能体时,利用复杂的奖励函数鼓励自然策略,并配合基于参考动作捕获数据的对抗运动先验可以使产生的行为迁移到真实机器人上,从而得到能量有效的步态转移。