Jun, 2024

弥补强化学习中奖励匹配问题

TL;DR生成流网络(GFlowNet)是一个概率框架,其中代理通过学习随机策略和流函数,以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中,我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系,并提出了一种新颖的修正型策略评估(RPE)算法,同时比较了 RPE、MaxEnt RL 和 GFlowNets 在多个基准测试下的性能。这项工作为(非 MaxEnt)RL 与 GFlowNets 之间的未曾探索的联系提供了新的启示,可能为两个领域的未来研究开辟了新的途径。