Nov, 2022

面对对手的目标条件强化学习

TL;DR介绍了在存在对手的目标条件学习中,使用 DigitFlip 和 CLEVR-Play 两个新的目标条件环境,提出了用于目标条件学习的 EHER 和 CHER 两种算法,并评估了它们的性能,最终介绍了 IGOAL:一种新的目标条件学习框架。实验结果表明,将 IGOAL 与 EHER 相结合可以显著地超过现有方法,在对抗随机和能力对手时表现更好。