提出了一种新颖的强化学习算法,可有效地在可行样本的流形上进行探索,并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.
Feb, 2024
探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布,并且生成新的群体移向用户指定的目标奖励值,通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。
Jul, 2023
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
通过专家视频学习奖励,我们提出了一种名为 Diffusion Reward 的框架,通过条件视频扩散模型学习奖励,以解决复杂的视觉强化学习问题。
Dec, 2023
基于扩散模型的条件采样方法,在黑盒优化中生成接近最佳解且保留设计的潜在结构,通过建立理论模型和进行实验验证,证明了奖励导向扩散模型在黑盒优化中的效率和准确性。
Mar, 2024
通过直接奖励微调方法(DRaFT)对扩散模型进行微调,以最大化可微分奖励函数,实现了强化学习方法无法超越的强大性能,通过在采样过程中反向传播奖励梯度,并且提出了更高效的 DRaFT 变体:DRaFT-K 和 DRaFT-LV。同时,通过与之前的工作进行对比,为基于梯度微调算法的设计空间提供了一个统一的视角。
Sep, 2023
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形,来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法,利用类似扩散过程的思想,在高维空间中构建从潜在目标状态扩散而远离的轨迹,并通过学习类似分值函数的目标条件策略,能够从任意初始状态到达预定义或新颖的目标。本文在离线目标达成任务上进行理论验证和实证实验,结果表明这种针对序列决策问题的扩散思路是一种简单、可扩展且有效的方向。
Oct, 2023
本文中,研究了在序列决策任务中,优化奖励函数对于强化学习的性能具有重要意义,提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法,并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。
Apr, 2018
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022