具有个性化的元生成流网络用于任务特定的适应性

Jun, 2023

具有个性化的元生成流网络用于任务特定的适应性

Meta Generative Flow Networks with Personalization for Task-Specific Adaptation

Xinyuan Ji, Xu Zhang, Wei Xi, Haozhi Wang, Olga Gadyatskaya...

TL;DR本文提出了 pGFlowMeta 算法，结合了任务特定的个性化策略与元策略，并在稀疏奖励和异质性环节上实现了性能提升，理论分析表明其算法收敛速度是次线性的，而广泛的实验表明所提出的算法在离散环境中优于现有的强化学习算法。

Abstract

multi-task reinforcement learning and meta-reinforcement learning have been developed to quickly adapt to new tasks, but they tend to focus on tasks with higher rewards and more frequent occurrences, leading to p

multi-task reinforcement learning meta-reinforcement learning gflownets pgflowmeta reinforcement learning algorithms

发现论文，激发创造

元元强化学习个性化策略的收敛理论

该论文提出了一种个性化元强化学习算法 (pMeta-RL)，旨在解决元强化学习中的梯度冲突问题，该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略，同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明，优于其他以往的 Meta-RL 算法。

Sep, 2022

探究与改进 GFlowNet 的训练

本文介绍了基于 GFlowNets 算法的生成模型策略，探究了如何在实际训练资源限制下实现更好的样本效率和匹配目标分布，提出了优先回放、相对边流策略参数化和新的引导轨迹平衡目标等方法来提高样本效率，有效解决了一些结构学分配问题。

May, 2023

生成流网络作为熵正则化强化学习

最近提出的生成流网络（GFlowNets）是一种通过一系列操作，使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况，演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题，并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反，我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。

Oct, 2023

关于生成流网络的泛化能力

Generative Flow Networks (GFlowNets) are trained to sample from unnormalized probability distributions by learning policies on constructed graphs, with a focus on generalization to unseen parts of the reward function, particularly in terms of length.

Jul, 2024

演化引导的生成流网络

我们提出了一种名为进化引导生成流网络（EGFN）的方法，通过使用进化算法（EA）对一组代理参数进行训练，将得到的轨迹存储在优先级回放缓冲区中，并使用存储的轨迹训练 GFlowNets 代理，以有效地训练 GFlowNets 模型在处理长轨迹和稀疏奖励时的挑战。通过广泛的玩具和真实世界基准任务的深入研究，我们展示了我们的方法在处理长轨迹和稀疏奖励时的有效性。

Feb, 2024

弥补强化学习中奖励匹配问题

生成流网络（GFlowNet）是一个概率框架，其中代理通过学习随机策略和流函数，以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中，我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系，并提出了一种新颖的修正型策略评估（RPE）算法，同时比较了 RPE、MaxEnt RL 和 GFlowNets 在多个基准测试下的性能。这项工作为（非 MaxEnt）RL 与 GFlowNets 之间的未曾探索的联系提供了新的启示，可能为两个领域的未来研究开辟了新的途径。

Jun, 2024

探索生成流网络的泛化行为

生成流网络（GFlowNets，GFNs）是一种生成式框架，用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设，发现它们学习逼近的函数具有隐含的结构，有利于泛化。同时，我们还发现 GFlowNets 对离线和离策略训练非常敏感，但是 GFlowNets 隐含学习到的奖励对训练分布的变化具有鲁棒性。

Feb, 2024

GFlowNets 多阶段主动学习

本文提出采用 GFlowNets 多保真度主动学习算法，可在具有多个保真度和代价参差不齐的神奇黑匣子函数的情况下，高效加速科学发现和工程设计。

Jun, 2023

基于生成流网络的精确奖励导向图模型主动学习

本文提出了基于生成式流网络的图主动学习问题的创新形式：GFlowGNN。我们提出了流节点和流特征的概念，以便有效地将图建模为基于流的生成流网络。并在实际数据集上进行了广泛的实验，证明了该方法具有良好的探索能力和可转移性，表现优于各种最先进的方法。

Apr, 2023

基于流网络的生成模型用于非迭代多样候选生成

本文提出了一种基于 GFlowNet 的生成策略来生成对象的方法，该方法将生成过程视为一种流动网络，并将一组轨迹转换为流动，并将流动一致性方程转换为学习目标，以实现训练时的搜索成本，从而提高了性能和多样性。

Jun, 2021