GFlowNet 中的动态回溯：通过奖励依赖调整机制增强决策步骤

Apr, 2024

GFlowNet 中的动态回溯：通过奖励依赖调整机制增强决策步骤

Dynamic Backtracking in GFlowNet: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms

Shuai Guo, Jielei Chu, Lei Zhu, Tianrui Li

TL;DR利用动态回溯机制进行决策，该论文介绍了一种新颖的 GFlowNet 变种 —— 动态回溯 GFN（DB-GFN），用于生成生化分子和遗传材料序列的生成任务，其中 DB-GFN 在样本质量、探索样本数量和训练收敛速度方面超过现有的 GFlowNet 模型和传统强化学习方法，具有潜在的集成其他策略以实现更高效搜索性能的能力。

Abstract

generative flow networks (gflownets) are probabilistic models predicated on Markov flows, employing specific amortization algorithms to learn stochastic policies that generate →

generative flow networks gflownets compositional substances dynamic backtracking mechanism biomolecules

发现论文，激发创造

双生成流网络

深度学习在药物发现中是一种有效的工具，具有在预测模型和生成模型中的潜在应用。本文介绍了双生成流网络（double GFlowNets，DGFNs），这是一种能够生成多样化候选物分子的方法。通过引入强化学习和双深度 Q 学习的概念，我们在采样轨迹时使用了目标网络，并利用这些采样轨迹更新主网络。实证结果表明，DGFNs 有效地增强了在稀疏奖励领域和高维状态空间中的探索能力，这是药物发现中崭新设计的具有挑战性的方面。

Oct, 2023

局部搜索 GFlowNets

通过使用局部搜索方法来培训 GFlowNets，本文解决了传统 GFlowNet 方法在产生高回报样本方面的困难，进而表现出出色的性能提升。

Oct, 2023

探索生成流网络的泛化行为

生成流网络（GFlowNets，GFNs）是一种生成式框架，用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设，发现它们学习逼近的函数具有隐含的结构，有利于泛化。同时，我们还发现 GFlowNets 对离线和离策略训练非常敏感，但是 GFlowNets 隐含学习到的奖励对训练分布的变化具有鲁棒性。

Feb, 2024

演化引导的生成流网络

我们提出了一种名为进化引导生成流网络（EGFN）的方法，通过使用进化算法（EA）对一组代理参数进行训练，将得到的轨迹存储在优先级回放缓冲区中，并使用存储的轨迹训练 GFlowNets 代理，以有效地训练 GFlowNets 模型在处理长轨迹和稀疏奖励时的挑战。通过广泛的玩具和真实世界基准任务的深入研究，我们展示了我们的方法在处理长轨迹和稀疏奖励时的有效性。

Feb, 2024

回顾性反向综合：面向目标条件 GFlowNets 的回顾性反向合成

通过回顾性逆向合成（RBS）方法，我们提出一种应对稀疏奖励问题的新方法，用于训练目标条件下的生成流网络（GFlowNets），并在各类标准评估基准上显著提高样本效率并优于强基准模型。

Jun, 2024

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

分叉生成流网络

生成流网络（GFlowNets）是一种有前景的概率抽样框架，目前出现了一种新的家族。然而，现有的 GFlowNets 由于边缘流的直接参数化或依赖于可能难以扩展到大型操作空间的反向策略，往往导致数据效率较低。本文介绍了一种称为 Bifurcated GFlowNets（BN）的新方法，该方法采用分岔结构设计，将流程分解成状态流程和基于边缘的流程分配的独立表示。此分解使得 BN 能够更有效地从数据中学习，并更好地处理大规模问题，同时保持收敛保证。通过在标准评估基准上进行了大量实验，我们证明 BN 相对于强基准模型显著提高了学习效率和效果。

Jun, 2024

基因引导的 GFlowNets：提升实用分子优化基准

本篇论文提出了一种新的 GFlowNet 变体，遗传引导 GFlowNet (Genetic GFN)，通过将迭代遗传搜索集成到 GFlowNet 中，有效地指导 GFlowNet 到高回报区域，解决全局过度探索导致训练效率低下和探索有限区域的问题。此方法在实际分子优化 (PMO) 的基准测试中达到了 16.213 的最高分数，明显优于报道的最佳分数 15.185，超过了 23 个任务中的所有基准线，包括强化学习、贝叶斯优化、生成模型、GFlowNets 和遗传算法。

Feb, 2024

DynGFN：使用生成流网络的贝叶斯动态因果发现

本文提出了一个针对动态系统的基于 Bayesian 原理的因果关系发现框架，采用生成流网络架构来学习循环图的贝叶斯后验概率，该框架通过时间建立自然的因果关系，并通过实验表明其与同类算法相比，能够更好的表征同时具有循环性和因果性的问题。

Feb, 2023

QGFN: 行动价值的可控贪婪度

通过将 GFN 策略与行为价值估计 Q 相结合，提出了一种新的方法 QGFN，能够在多个任务中生成更多高回报样本而不损失多样性。

Feb, 2024