图扩散策略优化
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
本文提出一种新的基因算法,名为遗传策略优化(GPO),用于样本有效的深度策略优化,通过状态空间中的模仿学习进行策略交叉并应用策略梯度方法进行变异,实验结果表明,GPO 优于现有的策略梯度方法,并实现了相当或更高的样本效率。
Nov, 2017
本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实验结果表明,该方法在各种强化学习任务中有效地找到了多样化的策略,并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。
Jul, 2022
本文利用扩散概率模型提出了一种新的随机策略表示方法,并证明了它对于多模态分布的优越性,进而应用到无模型在线强化学习中,提出 DIPO 算法,在标准连续控制 Mujoco 基准中取得了显著优势。
May, 2023
离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略,利用生成对抗网络生成多样的动作分布,使用最大似然估计方法生成近似行为策略分布的数据,并引入基于鉴别器输出的额外正则化项来有效约束策略探索,实验证明在离线强化学习领域超过了其他方法。
Jun, 2024
3D 生成在过去十年中迅速发展,得益于生成建模领域的进步。得分蒸馏采样(SDS)渲染大大提高了 3D 资源生成的水平。此外,最近的溯源扩散策略优化(DDPO)工作表明扩散过程与策略梯度方法兼容,并已通过美学评分函数改进了 2D 扩散模型。我们首先展示了这个美学评分器在各种基于 SDS 的方法中作为强有力的指导,并展示了它在文本到 3D 合成中的有效性。此外,我们利用 DDPO 方法改进了从 2D 扩散模型获得的 3D 渲染质量。我们的方法 DDPO3D 采用了策略梯度方法和美学评分。据我们所知,这是第一种将策略梯度方法扩展到基于得分的 3D 渲染的方法,并显示了对 SDS-based 方法(如 DreamGaussian)的改进。我们的方法与基于得分蒸馏的方法兼容,可以将各种奖励函数融入生成过程中。您可以通过此网址访问我们的项目页面 https URL。
Dec, 2023
本研究提出了深度扩散策略梯度(DDiffPG)算法,它能够学习参数化为扩散模型的多模态策略,并通过聚类和内在动机探索来发现和维持多样化行为,同时减少强化学习的贪婪性质,实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明,该算法在复杂的高维连续控制任务中能够掌握多模态行为,并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。
Jun, 2024
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。
Jul, 2022
本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程(TMDPs)的策略梯度定理及其实现,进一步扩展了 TMDPs 在面对多种复杂问题方面的应用,提出了一种针对多目标导航问题的新算法,并在模拟环境和实际机器人上进行了演示。
Sep, 2022
本文提出了一种政策梯度方法,避免引入探索性噪声并在确定性景观上执行政策搜索,使用 Wasserstein-based 二次模型进行确定性政策正则化,适用于机器人控制环境。
May, 2022