多路径环境中的离散概率推断作为控制
本文提出了一种基于 GFlowNet 的生成策略来生成对象的方法,该方法将生成过程视为一种流动网络,并将一组轨迹转换为流动,并将流动一致性方程转换为学习目标,以实现训练时的搜索成本,从而提高了性能和多样性。
Jun, 2021
最近提出的生成流网络(GFlowNets)是一种通过一系列操作,使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况,演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题,并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反,我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。
Oct, 2023
生成流网络(GFlowNet)是一个概率框架,其中代理通过学习随机策略和流函数,以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中,我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系,并提出了一种新颖的修正型策略评估(RPE)算法,同时比较了 RPE、MaxEnt RL 和 GFlowNets 在多个基准测试下的性能。这项工作为(非 MaxEnt)RL 与 GFlowNets 之间的未曾探索的联系提供了新的启示,可能为两个领域的未来研究开辟了新的途径。
Jun, 2024
本文介绍了基于 GFlowNets 算法的生成模型策略,探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布,提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率,有效解决了一些结构学分配问题。
May, 2023
我们运用蒙特卡罗树搜索算法(MCTS)提升了生成流网络的规划能力,实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。
Jun, 2024
本文提出了利用 GFlowNets 与 Markov 决策过程相结合的方法,通过训练条件 GFlowNets 来采样解空间,并通过各种合成数据和真实数据模拟多种不同的组合问题。通过大量实验证明,GFlowNet 策略可以高效地找到高质量解。
May, 2023
我们引入了一种基于能量的正则化流(EBFlow)建模的新的最大熵强化学习框架,该框架集成了策略评估步骤和策略改进步骤,实现了单一的目标训练过程,并且能够计算用于策略评估目标的软值函数,同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估,结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。
May, 2024
本文提出了一种名为 Quantile Matching 的新型 GFlowNet 学习算法,它采用了分布法来处理代理的激励波动性,并且对具有决定性的激励任务也有显著的改进。
Feb, 2023
Order-Preserving GFlowNets (OP-GFNs) are proposed to sample candidates in proportion to a learned reward function consistent with a given order, eliminating the need for a predefined scalar reward in tasks like multi-objective optimization, and it is proven to concentrate on higher hierarchy candidates, achieving state-of-the-art performance in various tasks.
Sep, 2023