Dec, 2023

高回放比与规则化的高效稀疏奖励目标条件式强化学习

TL;DR纵观文中,研究主要集中在强化学习方法中如何将高重放比率(RR)与正则化相结合,以推进稀疏奖励目标条件任务并提高样本效率。作者对 Randomized Ensemble Double Q-learning 方法进行了修改并应用于稀疏奖励目标条件任务,在 12 个机器人学任务的评估中表现出了约 2 倍于先前的最先进强化学习方法的样本效率,并同时降低了 REDQ 的复杂性,使之在 4 个 Fetch 机器人任务中达到了约 8 倍于先前方法的样本效率。