生成流网络作为熵正则化强化学习

Oct, 2023

生成流网络作为熵正则化强化学习

Generative Flow Networks as Entropy-Regularized RL

Daniil Tiapkin, Nikita Morozov, Alexey Naumov, Dmitry Vetrov

TL;DR最近提出的生成流网络（GFlowNets）是一种通过一系列操作，使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况，演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题，并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反，我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。

Abstract

The recently proposed generative flow networks (GFlowNets) are a method of training a policy to sample compositional discrete objects with probabilities proportional to a given reward via a sequence of actions. GFlowNets exploit the →

generative flow networks sequential nature reinforcement learning entropic rl approaches probabilistic modeling

发现论文，激发创造

弥补强化学习中奖励匹配问题

生成流网络（GFlowNet）是一个概率框架，其中代理通过学习随机策略和流函数，以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中，我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系，并提出了一种新颖的修正型策略评估（RPE）算法，同时比较了 RPE、MaxEnt RL 和 GFlowNets 在多个基准测试下的性能。这项工作为（非 MaxEnt）RL 与 GFlowNets 之间的未曾探索的联系提供了新的启示，可能为两个领域的未来研究开辟了新的途径。

Jun, 2024

最大熵 GFlowNets 与软 Q 学习

构建适当的奖励函数，建立了生成性流网络（GFN）与最大熵强化学习（RL）之间的确切关系，并介绍了具有最大熵的 GFN。

Dec, 2023

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

探索生成流网络的泛化行为

生成流网络（GFlowNets，GFNs）是一种生成式框架，用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设，发现它们学习逼近的函数具有隐含的结构，有利于泛化。同时，我们还发现 GFlowNets 对离线和离策略训练非常敏感，但是 GFlowNets 隐含学习到的奖励对训练分布的变化具有鲁棒性。

Feb, 2024

演化引导的生成流网络

我们提出了一种名为进化引导生成流网络（EGFN）的方法，通过使用进化算法（EA）对一组代理参数进行训练，将得到的轨迹存储在优先级回放缓冲区中，并使用存储的轨迹训练 GFlowNets 代理，以有效地训练 GFlowNets 模型在处理长轨迹和稀疏奖励时的挑战。通过广泛的玩具和真实世界基准任务的深入研究，我们展示了我们的方法在处理长轨迹和稀疏奖励时的有效性。

Feb, 2024

多路径环境中的离散概率推断作为控制

通过在整个马尔可夫决策过程中近似强制执行流的守恒，我们扩展了最近的方法来纠正奖励，以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。

Feb, 2024

非循环生成流网络的理论

GFlowNets 是一种新型的基于流的方法，用于学习通过一系列动作以及与给定正向奖励成比例的概率来生成对象的随机策略。我们在放宽应用范围的前提下对 GFlowNets 的假设进行了改进，特别是解除了关于非环性的限制。为此，我们扩展了可测空间上的 GFlowNets 理论，其中包括了没有循环限制的连续状态空间，并在这个广义上下文中提供了循环的一般化。我们展示了迄今为止使用的损失函数会使流陷入循环，因此我们定义了一族能解决这个问题的损失函数。在图形和连续任务上进行的实验证实了这些原则。

Dec, 2023

随机环境下的预期流网络与两人零和游戏

生成流网络（GFlowNets）在多个结构化对象生成任务中取得成功，并扩展到包括蛋白质设计在内的随机环境，提出了预期流网络（EFlowNets）和对抗性流网络（AFlowNets）分别用于两人零和游戏，表明后者在 Connect 4 比赛中通过自对弈发现超过 80% 的最优移动，并超越 AlphaZero。

Oct, 2023

基于生成流网络的精确奖励导向图模型主动学习

本文提出了基于生成式流网络的图主动学习问题的创新形式：GFlowGNN。我们提出了流节点和流特征的概念，以便有效地将图建模为基于流的生成流网络。并在实际数据集上进行了广泛的实验，证明了该方法具有良好的探索能力和可转移性，表现优于各种最先进的方法。

Apr, 2023

改进 GFlowNets 使用蒙特卡罗树搜索

我们运用蒙特卡罗树搜索算法（MCTS）提升了生成流网络的规划能力，实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。

Jun, 2024