BriefGPT.xyz
Ask
alpha
关键词
flow functions
搜索结果 - 1
弥补强化学习中奖励匹配问题
生成流网络(GFlowNet)是一个概率框架,其中代理通过学习随机策略和流函数,以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中,我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系,并提出了一种新颖的修正型策略评估(R
→
PDF
a month ago
Prev
Next