强化学习中的扩散过程奖励塑造
本文提出了一种名为 RGDM 的模型,通过强化学习(RL)引导扩散模型的训练阶段,从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明,该模型相较于现有的条件扩散模型具有显著的改进。
Apr, 2023
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
Dec, 2018
通过利用各态过程的统计力学,提出了一种称为最大扩散增强学习的方法,在单次部署中可使代理能够连续学习,无论如何初始化。该方法可以去除代理经验之间的相关性,证明了其优于流行基准的最优性能,并为增强学习代理(如行走机器人和自动驾驶车辆)的透明和可靠决策铺平了道路。
Sep, 2023
本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs,用于强化学习问题和各种类型熵的使用,包括标准 Shannon-Gibbs 熵,并使用一个额外的实数值参数,称为熵指数,控制了勘探倾向和优化政策的不同维度,所提出方法采用 Tsallis 的熵极大化,并以无模型演员 - 评论家策略进行实现,在 MuJoCo 模拟器上进行验证并取得最先进的性能。
Jan, 2019
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
研究提出了一种基于奖励设计的强化学习算法,通过使用层次结构的抽象模型,将抽象层级中的解决方案用于指导更复杂领域的学习,从而提高了学习效率且具有实际应用价值。
Feb, 2023
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的 ' 成本 ',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。
Aug, 2023
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
我们提出了一种最大熵反向强化学习 (IRL) 方法,用于改善扩散生成模型的样本质量,尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型,我们使用从训练数据估计的对数概率密度来训练(或微调)扩散模型。我们采用基于能量的模型 (EBM) 表示对数密度,因此我们的方法可以简化为同时训练扩散模型和 EBM。我们的 IRL 方式称为最大熵 IRL 的扩散 (DxMI),它是一个极小极大问题,在两个模型都收敛到数据分布时达到平衡。熵最大化在 DxMI 中起着关键作用,有助于探索扩散模型并确保 EBM 的收敛。我们还提出了一种名为动态规划扩散 (DxDP) 的新型强化学习算法作为 DxMI 中的子程序。DxDP 通过将原问题转化为最优控制的形式,其中值函数代替了时间的反向传播,从而使 DxMI 中的扩散模型更新变得高效。我们的实证研究表明,使用 DxMI 进行微调的扩散模型可以在仅需 4 和 10 个步骤的情况下生成高质量的样本。此外,DxMI 使得在没有 MCMC 的情况下训练 EBM 变得稳定,提高了异常检测性能。
Jun, 2024