Aug, 2022

自我导引的中继后见经验回放:稀疏奖励下用于连续顺序物体操纵任务的持续强化学习

TL;DR提出了一种新颖的自导式连续强化学习框架 (RelayHER),通过将顺序任务分解为具有不同复杂度的子任务、设计多目标和多任务网络以及使用自导式探索策略,使得智能体能够有效地解决顺序目标操纵任务。