改进 GFlowNets 使用蒙特卡罗树搜索

ICMLJun, 2024

改进 GFlowNets 使用蒙特卡罗树搜索

Improving GFlowNets with Monte Carlo Tree Search

Nikita Morozov, Daniil Tiapkin, Sergey Samsonov, Alexey Naumov, Dmitry Vetrov

TL;DR我们运用蒙特卡罗树搜索算法（MCTS）提升了生成流网络的规划能力，实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。

Abstract

generative flow networks (GFlowNets) treat sampling from distributions over compositional discrete spaces as a sequential decision-making problem, training a →

generative flow networks compositional discrete spaces stochastic policy monte carlo tree search sample efficiency

发现论文，激发创造

生成流网络：马尔可夫链角度

本文对 Generative Flow Networks 进行了形式化，并将其视为循环马尔科夫链状态空间下采样的一种方法，这一方法可以在不使用流动的情况下模拟复杂的多模态概率分布函数。

Jul, 2023

Thompson 采样在 GFlowNets 中的应用提高探索性能

本文提出了一种基于多臂赌博机思想的贝叶斯技术算法（TS-GFN），将训练过程中的轨迹选择视为主动学习问题，从学习策略的近似后验分布中采样轨迹来提高探索效率，进而比过去的离线探索策略更快地收敛至目标分布，在两个领域的实验中证明了其优越性。

Jun, 2023

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

生成流网络作为熵正则化强化学习

最近提出的生成流网络（GFlowNets）是一种通过一系列操作，使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况，演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题，并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反，我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。

Oct, 2023

让流动告诉我们答案：使用 GFlowNets 解决图形组合优化问题

本文提出了利用 GFlowNets 与 Markov 决策过程相结合的方法，通过训练条件 GFlowNets 来采样解空间，并通过各种合成数据和真实数据模拟多种不同的组合问题。通过大量实验证明，GFlowNet 策略可以高效地找到高质量解。

May, 2023

多路径环境中的离散概率推断作为控制

通过在整个马尔可夫决策过程中近似强制执行流的守恒，我们扩展了最近的方法来纠正奖励，以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。

Feb, 2024

最大熵 GFlowNets 与软 Q 学习

构建适当的奖励函数，建立了生成性流网络（GFN）与最大熵强化学习（RL）之间的确切关系，并介绍了具有最大熵的 GFN。

Dec, 2023

局部搜索 GFlowNets

通过使用局部搜索方法来培训 GFlowNets，本文解决了传统 GFlowNet 方法在产生高回报样本方面的困难，进而表现出出色的性能提升。

Oct, 2023

基于流网络的生成模型用于非迭代多样候选生成

本文提出了一种基于 GFlowNet 的生成策略来生成对象的方法，该方法将生成过程视为一种流动网络，并将一组轨迹转换为流动，并将流动一致性方程转换为学习目标，以实现训练时的搜索成本，从而提高了性能和多样性。

Jun, 2021

生成流网络的贝叶斯结构学习

本研究提出了一种称为 DAG-GFlowNet 的方法，使用 Generative Flow Networks 代替 MCMC 来近似推断 Bayesian 网络结构的后验分布。实验结果表明，DAG-GFlowNet 能够提供准确的 DAG 后验近似，并且相对于 MCMC 或变分推断等方法具有优势。

Feb, 2022