通过奖励引导探索实现可控扩散模型
Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形,来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法,利用类似扩散过程的思想,在高维空间中构建从潜在目标状态扩散而远离的轨迹,并通过学习类似分值函数的目标条件策略,能够从任意初始状态到达预定义或新颖的目标。本文在离线目标达成任务上进行理论验证和实证实验,结果表明这种针对序列决策问题的扩散思路是一种简单、可扩展且有效的方向。
Oct, 2023
通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束,从而提高生成样本与约束的一致性,且相较于现有方法有更好的性能且不影响推断速度;该方法还可以自然地防止过拟合。
Mar, 2024
利用高斯混合模型作为特征条件引导去噪过程,构建了一种基于高斯混合模型的条件机制,证明了该条件机制在特征上的条件潜在分布相较于类别上的条件潜在分布产生较少的缺陷生成,通过两种基于高斯混合模型的扩散模型的实验结果支持上述发现,并提出负高斯混合梯度作为一种新的梯度函数,通过额外分类器在扩散模型训练中应用,提高了训练稳定性,并从理论上证明了负高斯混合梯度和地球移动距离(Wasserstein 距离)在学习由低维流形支持的分布时具有相同的优势作为一种更合理的代价函数。
Jan, 2024
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
此研究介绍了量子生成扩散模型(QGDM),一种完全的量子力学模型,用于生成量子态系列,灵感来自去噪扩散概率模型。QGDM 通过引入时间步骤相关的噪声进入量子态,并配对训练以逆转这种污染的降噪机制,高效地将完全混合态演化成目标量子态。与量子生成对抗网络的比较分析证明了 QGDM 的优越性,在涉及 4 个量子比特的数值模拟中,拟真度指标超过 0.99。此外,我们提出了一种资源高效的 QGDM 版本(RE-QGDM),其在涉及 8 个量子比特的任务中减少了对辅助量子比特的需求,同时保持了令人印象深刻的生成能力。这些结果展示了所提出模型在应对具有挑战性的量子生成问题方面的潜力。
Jan, 2024
基于扩散模型的条件采样方法,在黑盒优化中生成接近最佳解且保留设计的潜在结构,通过建立理论模型和进行实验验证,证明了奖励导向扩散模型在黑盒优化中的效率和准确性。
Mar, 2024
探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布,并且生成新的群体移向用户指定的目标奖励值,通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。
Jul, 2023
该论文介绍了一种名为 Transfer Guided Diffusion Process (TGDP) 的新方法,用于在目标领域中将预训练的扩散模型与域分类器的额外指导相结合,以实现优化后的扩散模型,进一步将 TGDP 扩展为用于建模数据及其对应标签的条件版本,并引入两个附加的正则化项以提高模型性能,通过高斯混合模拟和真实心电图数据集验证了 TGDP 方法的有效性。
May, 2024