QGFN: 行动价值的可控贪婪度
生成流网络(GFlowNets,GFNs)是一种生成式框架,用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设,发现它们学习逼近的函数具有隐含的结构,有利于泛化。同时,我们还发现 GFlowNets 对离线和离策略训练非常敏感,但是 GFlowNets 隐含学习到的奖励对训练分布的变化具有鲁棒性。
Feb, 2024
我们提出了一种名为进化引导生成流网络(EGFN)的方法,通过使用进化算法(EA)对一组代理参数进行训练,将得到的轨迹存储在优先级回放缓冲区中,并使用存储的轨迹训练 GFlowNets 代理,以有效地训练 GFlowNets 模型在处理长轨迹和稀疏奖励时的挑战。通过广泛的玩具和真实世界基准任务的深入研究,我们展示了我们的方法在处理长轨迹和稀疏奖励时的有效性。
Feb, 2024
本文介绍了基于 GFlowNets 算法的生成模型策略,探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布,提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率,有效解决了一些结构学分配问题。
May, 2023
深度学习在药物发现中是一种有效的工具,具有在预测模型和生成模型中的潜在应用。本文介绍了双生成流网络(double GFlowNets,DGFNs),这是一种能够生成多样化候选物分子的方法。通过引入强化学习和双深度 Q 学习的概念,我们在采样轨迹时使用了目标网络,并利用这些采样轨迹更新主网络。实证结果表明,DGFNs 有效地增强了在稀疏奖励领域和高维状态空间中的探索能力,这是药物发现中崭新设计的具有挑战性的方面。
Oct, 2023
Order-Preserving GFlowNets (OP-GFNs) are proposed to sample candidates in proportion to a learned reward function consistent with a given order, eliminating the need for a predefined scalar reward in tasks like multi-objective optimization, and it is proven to concentrate on higher hierarchy candidates, achieving state-of-the-art performance in various tasks.
Sep, 2023
最近提出的生成流网络(GFlowNets)是一种通过一系列操作,使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况,演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题,并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反,我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。
Oct, 2023
本文提出了一种名为 Quantile Matching 的新型 GFlowNet 学习算法,它采用了分布法来处理代理的激励波动性,并且对具有决定性的激励任务也有显著的改进。
Feb, 2023
生成流网络(GFlowNets)是一种有前景的概率抽样框架,目前出现了一种新的家族。然而,现有的 GFlowNets 由于边缘流的直接参数化或依赖于可能难以扩展到大型操作空间的反向策略,往往导致数据效率较低。本文介绍了一种称为 Bifurcated GFlowNets(BN)的新方法,该方法采用分岔结构设计,将流程分解成状态流程和基于边缘的流程分配的独立表示。此分解使得 BN 能够更有效地从数据中学习,并更好地处理大规模问题,同时保持收敛保证。通过在标准评估基准上进行了大量实验,我们证明 BN 相对于强基准模型显著提高了学习效率和效果。
Jun, 2024