Mar, 2023

通过有限的演示学习复杂的操作技能的确定性策略

TL;DR提出了一种名为 TD3fG 算法的新算法,旨在通过学习经验和专家的有机转换,帮助代理从低质量和不充分的演示中提取先前的知识,从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。