Aug, 2022
自我导引的中继后见经验回放:稀疏奖励下用于连续顺序物体操纵任务的持续强化学习
Relay Hindsight Experience Replay: Self-Guided Continual Reinforcement Learning for Sequential Object Manipulation Tasks with Sparse Rewards
Yongle Luo, Yuxin Wang, Kun Dong, Qiang Zhang, Erkang Cheng...
TL;DR提出了一种新颖的自导式连续强化学习框架 (RelayHER),通过将顺序任务分解为具有不同复杂度的子任务、设计多目标和多任务网络以及使用自导式探索策略,使得智能体能够有效地解决顺序目标操纵任务。