强化学习中的扩散过程奖励塑造

Jun, 2023

Reward Shaping via Diffusion Process in Reinforcement Learning

Peeyush Kumar

TL;DR本研究利用随机热力学和系统动力学的原理，探索通过扩散过程进行奖励塑造的方法，为探索 - 开发权衡提供了一个优雅的框架，并揭示了信息熵、随机系统动力学之间的关系及其对熵产生的影响，从而构建了一个双重框架，可作为派生有效策略的最大熵程序或计算信息成本和利益的修改成本优化程序的解释，为 RL 中的信息导向公式提供了新的视角。

Abstract

reinforcement learning (RL) models have continually evolved to navigate the exploration - exploitation trade-off in uncertain markov decision processes (MDPs). In this study, I leverage the principles of

reinforcement learning markov decision processes stochastic thermodynamics exploration-exploitation trade-off entropy production

发现论文，激发创造

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

强化学习中的探索与利用：一种随机控制方法

研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案，提出使用行为分布的微分熵来规范化奖励函数的熵正则化，并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索，最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时，解法能够收敛于经典 LQ 问题的解。

Dec, 2018

最大扩散强化学习

通过利用各态过程的统计力学，提出了一种称为最大扩散增强学习的方法，在单次部署中可使代理能够连续学习，无论如何初始化。该方法可以去除代理经验之间的相关性，证明了其优于流行基准的最优性能，并为增强学习代理（如行走机器人和自动驾驶车辆）的透明和可靠决策铺平了道路。

Sep, 2023

Tsallis 强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准 Shannon-Gibbs 熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用 Tsallis 的熵极大化，并以无模型演员 - 评论家策略进行实现，在 MuJoCo 模拟器上进行验证并取得最先进的性能。

Jan, 2019

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

通过奖励塑造在基于情节的强化学习中利用多重抽象

研究提出了一种基于奖励设计的强化学习算法，通过使用层次结构的抽象模型，将抽象层级中的解决方案用于指导更复杂领域的学习，从而提高了学习效率且具有实际应用价值。

Feb, 2023

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的 ' 成本 '，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

基于能量模型的最大熵逆强化学习中的扩散模型

我们提出了一种最大熵反向强化学习 (IRL) 方法，用于改善扩散生成模型的样本质量，尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型，我们使用从训练数据估计的对数概率密度来训练（或微调）扩散模型。我们采用基于能量的模型 (EBM) 表示对数密度，因此我们的方法可以简化为同时训练扩散模型和 EBM。我们的 IRL 方式称为最大熵 IRL 的扩散 (DxMI)，它是一个极小极大问题，在两个模型都收敛到数据分布时达到平衡。熵最大化在 DxMI 中起着关键作用，有助于探索扩散模型并确保 EBM 的收敛。我们还提出了一种名为动态规划扩散 (DxDP) 的新型强化学习算法作为 DxMI 中的子程序。DxDP 通过将原问题转化为最优控制的形式，其中值函数代替了时间的反向传播，从而使 DxMI 中的扩散模型更新变得高效。我们的实证研究表明，使用 DxMI 进行微调的扩散模型可以在仅需 4 和 10 个步骤的情况下生成高质量的样本。此外，DxMI 使得在没有 MCMC 的情况下训练 EBM 变得稳定，提高了异常检测性能。

Jun, 2024