局部搜索 GFlowNets
本文介绍了基于 GFlowNets 算法的生成模型策略,探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布,提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率,有效解决了一些结构学分配问题。
May, 2023
生成流网络(GFlowNets,GFNs)是一种生成式框架,用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设,发现它们学习逼近的函数具有隐含的结构,有利于泛化。同时,我们还发现 GFlowNets 对离线和离策略训练非常敏感,但是 GFlowNets 隐含学习到的奖励对训练分布的变化具有鲁棒性。
Feb, 2024
本文提出了一种基于多臂赌博机思想的贝叶斯技术算法(TS-GFN),将训练过程中的轨迹选择视为主动学习问题,从学习策略的近似后验分布中采样轨迹来提高探索效率,进而比过去的离线探索策略更快地收敛至目标分布,在两个领域的实验中证明了其优越性。
Jun, 2023
Order-Preserving GFlowNets (OP-GFNs) are proposed to sample candidates in proportion to a learned reward function consistent with a given order, eliminating the need for a predefined scalar reward in tasks like multi-objective optimization, and it is proven to concentrate on higher hierarchy candidates, achieving state-of-the-art performance in various tasks.
Sep, 2023
发展了一种无监督预训练的 GFlowNets 方法,通过预训练 OC-GFN 模型,可以在下游任务中直接提取适应新奖励函数的策略,并证明了该方法在发现模式和适应下游任务方面的有效性。
Oct, 2023
我们提出了一种名为进化引导生成流网络(EGFN)的方法,通过使用进化算法(EA)对一组代理参数进行训练,将得到的轨迹存储在优先级回放缓冲区中,并使用存储的轨迹训练 GFlowNets 代理,以有效地训练 GFlowNets 模型在处理长轨迹和稀疏奖励时的挑战。通过广泛的玩具和真实世界基准任务的深入研究,我们展示了我们的方法在处理长轨迹和稀疏奖励时的有效性。
Feb, 2024
GFlowNets 是一种新型的基于流的方法,用于学习通过一系列动作以及与给定正向奖励成比例的概率来生成对象的随机策略。我们在放宽应用范围的前提下对 GFlowNets 的假设进行了改进,特别是解除了关于非环性的限制。为此,我们扩展了可测空间上的 GFlowNets 理论,其中包括了没有循环限制的连续状态空间,并在这个广义上下文中提供了循环的一般化。我们展示了迄今为止使用的损失函数会使流陷入循环,因此我们定义了一族能解决这个问题的损失函数。在图形和连续任务上进行的实验证实了这些原则。
Dec, 2023
生成流网络(GFlowNets)是一种有前景的概率抽样框架,目前出现了一种新的家族。然而,现有的 GFlowNets 由于边缘流的直接参数化或依赖于可能难以扩展到大型操作空间的反向策略,往往导致数据效率较低。本文介绍了一种称为 Bifurcated GFlowNets(BN)的新方法,该方法采用分岔结构设计,将流程分解成状态流程和基于边缘的流程分配的独立表示。此分解使得 BN 能够更有效地从数据中学习,并更好地处理大规模问题,同时保持收敛保证。通过在标准评估基准上进行了大量实验,我们证明 BN 相对于强基准模型显著提高了学习效率和效果。
Jun, 2024
利用动态回溯机制进行决策,该论文介绍了一种新颖的 GFlowNet 变种 —— 动态回溯 GFN(DB-GFN),用于生成生化分子和遗传材料序列的生成任务,其中 DB-GFN 在样本质量、探索样本数量和训练收敛速度方面超过现有的 GFlowNet 模型和传统强化学习方法,具有潜在的集成其他策略以实现更高效搜索性能的能力。
Apr, 2024
生成流网络(GFlowNets)在多个结构化对象生成任务中取得成功,并扩展到包括蛋白质设计在内的随机环境,提出了预期流网络(EFlowNets)和对抗性流网络(AFlowNets)分别用于两人零和游戏,表明后者在 Connect 4 比赛中通过自对弈发现超过 80% 的最优移动,并超越 AlphaZero。
Oct, 2023