回顾性反向综合：面向目标条件 GFlowNets 的回顾性反向合成

Jun, 2024

回顾性反向综合：面向目标条件 GFlowNets 的回顾性反向合成

Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets

Haoran He, Can Chang, Huazhe Xu, Ling Pan

TL;DR通过回顾性逆向合成（RBS）方法，我们提出一种应对稀疏奖励问题的新方法，用于训练目标条件下的生成流网络（GFlowNets），并在各类标准评估基准上显著提高样本效率并优于强基准模型。

Abstract

generative flow networks (gflownets) are amortized sampling methods for learning a stochastic policy to sequentially generate compositional objects with probabilities proportional to their rewards. →

generative flow networks gflownets goal-conditioned gflownets retrospective backward synthesis sparse reward problem

发现论文，激发创造

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

局部搜索 GFlowNets

通过使用局部搜索方法来培训 GFlowNets，本文解决了传统 GFlowNet 方法在产生高回报样本方面的困难，进而表现出出色的性能提升。

Oct, 2023

GFlowNet 中的动态回溯：通过奖励依赖调整机制增强决策步骤

利用动态回溯机制进行决策，该论文介绍了一种新颖的 GFlowNet 变种 —— 动态回溯 GFN（DB-GFN），用于生成生化分子和遗传材料序列的生成任务，其中 DB-GFN 在样本质量、探索样本数量和训练收敛速度方面超过现有的 GFlowNet 模型和传统强化学习方法，具有潜在的集成其他策略以实现更高效搜索性能的能力。

Apr, 2024

非循环生成流网络的理论

GFlowNets 是一种新型的基于流的方法，用于学习通过一系列动作以及与给定正向奖励成比例的概率来生成对象的随机策略。我们在放宽应用范围的前提下对 GFlowNets 的假设进行了改进，特别是解除了关于非环性的限制。为此，我们扩展了可测空间上的 GFlowNets 理论，其中包括了没有循环限制的连续状态空间，并在这个广义上下文中提供了循环的一般化。我们展示了迄今为止使用的损失函数会使流陷入循环，因此我们定义了一族能解决这个问题的损失函数。在图形和连续任务上进行的实验证实了这些原则。

Dec, 2023

分叉生成流网络

生成流网络（GFlowNets）是一种有前景的概率抽样框架，目前出现了一种新的家族。然而，现有的 GFlowNets 由于边缘流的直接参数化或依赖于可能难以扩展到大型操作空间的反向策略，往往导致数据效率较低。本文介绍了一种称为 Bifurcated GFlowNets（BN）的新方法，该方法采用分岔结构设计，将流程分解成状态流程和基于边缘的流程分配的独立表示。此分解使得 BN 能够更有效地从数据中学习，并更好地处理大规模问题，同时保持收敛保证。通过在标准评估基准上进行了大量实验，我们证明 BN 相对于强基准模型显著提高了学习效率和效果。

Jun, 2024

弥补强化学习中奖励匹配问题

生成流网络（GFlowNet）是一个概率框架，其中代理通过学习随机策略和流函数，以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中，我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系，并提出了一种新颖的修正型策略评估（RPE）算法，同时比较了 RPE、MaxEnt RL 和 GFlowNets 在多个基准测试下的性能。这项工作为（非 MaxEnt）RL 与 GFlowNets 之间的未曾探索的联系提供了新的启示，可能为两个领域的未来研究开辟了新的途径。

Jun, 2024

生成流网络作为熵正则化强化学习

最近提出的生成流网络（GFlowNets）是一种通过一系列操作，使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况，演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题，并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反，我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。

Oct, 2023

Thompson 采样在 GFlowNets 中的应用提高探索性能

本文提出了一种基于多臂赌博机思想的贝叶斯技术算法（TS-GFN），将训练过程中的轨迹选择视为主动学习问题，从学习策略的近似后验分布中采样轨迹来提高探索效率，进而比过去的离线探索策略更快地收敛至目标分布，在两个领域的实验中证明了其优越性。

Jun, 2023

预训练和微调生成流网络

发展了一种无监督预训练的 GFlowNets 方法，通过预训练 OC-GFN 模型，可以在下游任务中直接提取适应新奖励函数的策略，并证明了该方法在发现模式和适应下游任务方面的有效性。

Oct, 2023

RetroGFN：基於 GFlowNets 的多樣且可行的反合成

该研究提出了一种新颖的单步逆向合成模型 RetroGFN，通过在训练过程中利用一个可行性代理模型，可以探索有限数据集之外的可能反应，并返回多样的可行反应集合。实验证明 RetroGFN 在标准前 k 名准确率上具有竞争力，并在往返准确率方面优于现有方法。此外，提供了使用往返准确率的经验性论据，扩展了与标准前 k 名准确率指标相关的可行性概念。

Jun, 2024