通过随机控制进行扩散模型的微调:熵正则化与更多
通过以预训练扩散模型为基础,直接优化熵增强奖励函数的神经 SDE,我们提出了一种解决奖励陷入崩溃问题的框架,理论和实证证据表明该框架能够高效生成具有高真实奖励的多样样本,并减少对不完美奖励模型的过度优化。
Feb, 2024
熵正则化在政策优化中被广泛使用,有助于优化收敛,本文通过分析连续时间政策镜像下降动态,证明了固定熵水平下的动态指数级收敛到正则化问题的最优解,并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。
May, 2024
训练扩散模型以从具有给定未归一化密度或能量函数的分布中进行采样问题的研究,对于模拟为基础的变分方法和连续生成流网络等离散结构的推理方法进行基准测试,结果揭示了现有算法的相对优势,并对过去的研究提出了质疑。我们还提出了一种新颖的基于局部搜索和重放缓冲区在目标空间进行离线方法的探索策略,证明它改善了多个目标分布上样本的质量。我们为研究的采样方法和基准测试公开了代码,作为未来基于扩散模型进行分摊推理工作的基础。
Feb, 2024
这篇论文介绍了用于离线强化学习的训练扩散策略的先进技术。核心是一种均值回归的随机微分方程 (SDE),它将复杂的动作分布转化为标准的高斯分布,然后在已知环境状态的条件下采样动作,这类似于典型的扩散策略。我们证明了这种 SDE 有一个解,可以用来计算策略的对数概率,从而产生一个熵正则化项,改善离线数据集的探索性能。为了减轻来自分布外数据点的不准确值函数的影响,我们进一步提出了学习 Q - 集合的下界,以实现更强壮的策略改进。通过将熵正则化的扩散策略与 Q - 集合结合在离线强化学习中,我们的方法在 D4RL 基准测试中实现了最先进的性能。
Feb, 2024
对线性可解的 MDP 和线性二次调节器采用 Tsallis 熵来实现正则化,从而在探索和控制规律的稀疏性之间取得平衡。
Mar, 2024
该论文提出了基于深度学习的方法来对非归一化目标密度进行建模,并使用特定问题的 Schrödinger 桥问题来确定在给定先验分布和指定目标之间的最有可能的随机演变,其中包括前面出现的目标作为特殊情况。
Jul, 2023
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系,提供了匹配我们的上界的下界,以多项式因子缩放。此外,我们还利用这种对应关系确定了梯度流的极大熵最优策略的极限,从而刻画了与 Kakade 梯度流所对应的自然策略梯度方法的时间连续版本的隐含偏差。我们利用这一结果表明,在熵正则化自然策略梯度方法中,整体误差随迭代次数的平方根呈指数级别衰减,从而改进了现有的亚线性保证。
Jun, 2024
本文介绍和研究了一类概率生成模型,其中潜在对象是有限时间间隔上的有限维扩散过程,观察变量是在扩散的终端点条件下绘制的。 通过随机控制的视角,我们为这种生成模型的采样和变分推断提供了统一的观点,并量化了基于扩散的生成模型的表现力。我们最后提出并分析了一个无偏模拟的方案,并提供了结果估计值的方差上限。这个方案可以实现为深度生成模型并具有随机层数。
Mar, 2019
本研究介绍了量化问题,熵正则化量化问题以及熵正则化瓦砾斯坦距离的性质和稳定性,提出了一种基于软极小函数的逼近技术,使用熵正则化瓦砾斯坦距离评估软量化问题的逼近质量,并采用随机梯度法求解最优解。该方法的控制参数可调整优化问题的难度,对处理复杂问题具有显著优势,并通过实验证明了方法在各种应用中的性能。
Sep, 2023