Jun, 2022

通过引导机缘式课程的自助强化学习

TL;DR论文提出了一种新颖的灵活的对抗课程学习框架Bootstrapped Opportunistic Adversarial Curriculum Learning(BCL),通过对先前阶段的多次运行的最高质量解决方案进行保守自举,并机遇地跳过课程,实现了学习策略对对抗扰动的鲁棒性。实验表明,在Pong游戏中,该框架可使所学策略对最大255倍的扰动具有稳健性;相比之下,现有最佳方法只能承受最大5倍的对抗噪声。