多路径环境中的离散概率推断作为控制

Feb, 2024

多路径环境中的离散概率推断作为控制

Discrete Probabilistic Inference as Control in Multi-path Environments

Tristan Deleu, Padideh Nouri, Nikolay Malkin, Doina Precup, Yoshua Bengio

TL;DR通过在整个马尔可夫决策过程中近似强制执行流的守恒，我们扩展了最近的方法来纠正奖励，以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。

Abstract

We consider the problem of sampling from a discrete and structured distribution as a sequential decision problem, where the objective is to find a →

sampling sequential decision problem stochastic policy generative flow networks maxent rl

发现论文，激发创造

最大熵 GFlowNets 与软 Q 学习

构建适当的奖励函数，建立了生成性流网络（GFN）与最大熵强化学习（RL）之间的确切关系，并介绍了具有最大熵的 GFN。

Dec, 2023

基于流网络的生成模型用于非迭代多样候选生成

本文提出了一种基于 GFlowNet 的生成策略来生成对象的方法，该方法将生成过程视为一种流动网络，并将一组轨迹转换为流动，并将流动一致性方程转换为学习目标，以实现训练时的搜索成本，从而提高了性能和多样性。

Jun, 2021

生成流网络作为熵正则化强化学习

最近提出的生成流网络（GFlowNets）是一种通过一系列操作，使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况，演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题，并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反，我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。

Oct, 2023

弥补强化学习中奖励匹配问题

生成流网络（GFlowNet）是一个概率框架，其中代理通过学习随机策略和流函数，以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中，我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系，并提出了一种新颖的修正型策略评估（RPE）算法，同时比较了 RPE、MaxEnt RL 和 GFlowNets 在多个基准测试下的性能。这项工作为（非 MaxEnt）RL 与 GFlowNets 之间的未曾探索的联系提供了新的启示，可能为两个领域的未来研究开辟了新的途径。

Jun, 2024

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

改进 GFlowNets 使用蒙特卡罗树搜索

我们运用蒙特卡罗树搜索算法（MCTS）提升了生成流网络的规划能力，实验证明这种方法提高了生成流网络的训练样本效率和预先训练模型的生成真实性。

Jun, 2024

让流动告诉我们答案：使用 GFlowNets 解决图形组合优化问题

本文提出了利用 GFlowNets 与 Markov 决策过程相结合的方法，通过训练条件 GFlowNets 来采样解空间，并通过各种合成数据和真实数据模拟多种不同的组合问题。通过大量实验证明，GFlowNet 策略可以高效地找到高质量解。

May, 2023

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

分布式 GFlowNets 与分位数流

本文提出了一种名为 Quantile Matching 的新型 GFlowNet 学习算法，它采用了分布法来处理代理的激励波动性，并且对具有决定性的激励任务也有显著的改进。

Feb, 2023

有序保留的 GFlowNets

Order-Preserving GFlowNets (OP-GFNs) are proposed to sample candidates in proportion to a learned reward function consistent with a given order, eliminating the need for a predefined scalar reward in tasks like multi-objective optimization, and it is proven to concentrate on higher hierarchy candidates, achieving state-of-the-art performance in various tasks.

Sep, 2023