Jun, 2023

零样本强化学习中的泛化探索

TL;DR研究如何在强化学习的零样本泛化中,通过训练一个能够有效探索领域的行为策略,来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法,在多个 ProcGen 挑战任务中实现了良好的实验效果,尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。