Mar, 2023
通过有限的演示学习复杂的操作技能的确定性策略
Learning Complicated Manipulation Skills via Deterministic Policy with Limited Demonstrations
Liu Haofeng, Chen Yiwen, Tan Jiayi, Marcelo H Ang
TL;DR提出了一种名为 TD3fG 算法的新算法,旨在通过学习经验和专家的有机转换,帮助代理从低质量和不充分的演示中提取先前的知识,从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。