Jun, 2023

具有个性化的元生成流网络用于任务特定的适应性

TL;DR本文提出了 pGFlowMeta 算法,结合了任务特定的个性化策略与元策略,并在稀疏奖励和异质性环节上实现了性能提升,理论分析表明其算法收敛速度是次线性的,而广泛的实验表明所提出的算法在离散环境中优于现有的强化学习算法。