Thompson 采样在 GFlowNets 中的应用提高探索性能

ICMLJun, 2023

Thompson 采样在 GFlowNets 中的应用提高探索性能

Thompson sampling for improved exploration in GFlowNets

Jarrid Rector-Brooks, Kanika Madan, Moksh Jain, Maksym Korablyov, Cheng-Hao Liu...

TL;DR本文提出了一种基于多臂赌博机思想的贝叶斯技术算法（TS-GFN），将训练过程中的轨迹选择视为主动学习问题，从学习策略的近似后验分布中采样轨迹来提高探索效率，进而比过去的离线探索策略更快地收敛至目标分布，在两个领域的实验中证明了其优越性。

Abstract

generative flow networks (GFlowNets) are amortized variational inference algorithms that treat sampling from a distribution over compositional objects as a →

generative flow networks variational inference sequential decision-making active learning thompson sampling

发现论文，激发创造

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

局部搜索 GFlowNets

通过使用局部搜索方法来培训 GFlowNets，本文解决了传统 GFlowNet 方法在产生高回报样本方面的困难，进而表现出出色的性能提升。

Oct, 2023

改进 GFlowNets 使用蒙特卡罗树搜索

我们运用蒙特卡罗树搜索算法（MCTS）提升了生成流网络的规划能力，实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。

Jun, 2024

GFlowNets 和变分推断

这篇文章研究了两种概率算法（层次）变分推断（VI）和生成流网络（GFlowNets）之间的关系。作者发现，在某些情况下，VI 算法等价于 GFlowNets 的特殊情况，但 GFlowNets 比 VI 更适宜于强化学习和多模态目标分布的捕捉。

Oct, 2022

探索生成流网络的泛化行为

生成流网络（GFlowNets，GFNs）是一种生成式框架，用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设，发现它们学习逼近的函数具有隐含的结构，有利于泛化。同时，我们还发现 GFlowNets 对离线和离策略训练非常敏感，但是 GFlowNets 隐含学习到的奖励对训练分布的变化具有鲁棒性。

Feb, 2024

轨迹平衡：GFlowNets 中改进的信用分配

该文研究了生成流网络中的学习策略，提出了一种更有效的学习目标 - trajectory balance，并在实验中验证了其提高生成样本多样性和网络收敛性的效果。

Jan, 2022

图神经汤普森采样

我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。

Jun, 2024

基于流网络的生成模型用于非迭代多样候选生成

本文提出了一种基于 GFlowNet 的生成策略来生成对象的方法，该方法将生成过程视为一种流动网络，并将一组轨迹转换为流动，并将流动一致性方程转换为学习目标，以实现训练时的搜索成本，从而提高了性能和多样性。

Jun, 2021

分布式 GFlowNets 与分位数流

本文提出了一种名为 Quantile Matching 的新型 GFlowNet 学习算法，它采用了分布法来处理代理的激励波动性，并且对具有决定性的激励任务也有显著的改进。

Feb, 2023

分叉生成流网络

生成流网络（GFlowNets）是一种有前景的概率抽样框架，目前出现了一种新的家族。然而，现有的 GFlowNets 由于边缘流的直接参数化或依赖于可能难以扩展到大型操作空间的反向策略，往往导致数据效率较低。本文介绍了一种称为 Bifurcated GFlowNets（BN）的新方法，该方法采用分岔结构设计，将流程分解成状态流程和基于边缘的流程分配的独立表示。此分解使得 BN 能够更有效地从数据中学习，并更好地处理大规模问题，同时保持收敛保证。通过在标准评估基准上进行了大量实验，我们证明 BN 相对于强基准模型显著提高了学习效率和效果。

Jun, 2024