加速近似汤普森抽样与欠阻尼 Langevin 蒙特卡洛
探究 Thompson 抽样算法在上下文强化学习中的效率,提出了一种使用 Langevin Monte Carlo 和 Markov Chain Monte Carlo 方法直接从后验分布进行采样的算法,避免了高维情况下对后验分布的高斯近似,证明了其具有与传统 Thompson 抽样算法相同的次线性变化速度,实验证明了直接采样方法在性能和计算效率上的优势。
Jun, 2022
本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略,通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数,该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布,在深度 RL 中易于部署,取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。
May, 2023
该研究将研究重点放在了光滑且强凸目标分布的欠阻尼 Langevin 扩散上,并提出了基于该扩散的 MCMC 算法,证明 2 - 瓦瑟斯坦距离下其误差达到 ε 的时间复杂度是 O (√d/ε),超越了同样假设下过阻尼 Langevin MCMC 的最佳步骤数,该方法可视为在应用领域中表现优越的 Hamiltonian Monte Carlo 方法的一种。
Jul, 2017
本研究研究了在采样中采用了过阻尼和欠阻尼 Langevin MCMC,证明了算法的迭代复杂度在维度和目标准确度方面均是多项式级别的,但在问题参数 LR ^ 2 中是指数级别的,从而可以更好地进行非凸优化。
May, 2018
本文研究了从已知平滑和强对数凹概率密度函数中采样的方法, 分析了基于过渡态随机游走的近似采样方法,并提出了几种保证误差的方法, 包括第一阶 Langevin Monte Carlo 算法的误差上界、误差上界和梯度评估不准确的情况, 以及二阶 Langevin Monte Carlo 算法利用 log 密度的海森矩阵的保证。
Sep, 2017
本文对应用于限制在凸体上的对数凸概率分布的 Langevin Monte Carlo 采样算法进行了详细的理论分析,该方法依赖于涉及与 K 相关的指示函数的 Moreau-Yosida 包络的正则化过程,建立了总变差范数和一阶 Wasserstein 距离的显式收敛界限,并且给出了有限状态空间维数的算法复杂度是多项式级别的证明。最后,我们提供了一些数值实验,与文献中的竞争 MCMC 方法进行比较。
May, 2017
我们提出了一种近似的 Thompson 采样算法,用于学习具有改进贝叶斯后悔界限为 O (√T) 的线性二次调节器(LQR)。我们的方法利用了经过细致设计的 Langevin 动力学和简单的激励机制。我们展示了激励信号随时间增长引起预条件器的最小特征值增长,从而加速近似后验采样过程。此外,我们识别出由我们的算法生成的近似后验的非平凡的浓度特性。这些特性使我们能够在不依赖于文献中常用的对参数集的不切实际的限制假设的情况下,束缚系统状态的矩,并获得 O (√T) 的后悔界限。
May, 2024
本研究针对梯度采样在概率测度视角下的优化问题,以 KL 散度作为目标函数,通过低阻尼 Langevin 算法加速梯度下降,并利用 Hypocoercivity 构建李雅普诺夫函数来表征算法的收敛性,以 Langevin 算法的优化结果呈现了一类非凸函数的加速率。
Feb, 2019
该论文研究了近似采样的问题,特别是非对数凹分布的问题,提出了基于 Langevin Monte Carlo 算法的马尔可夫链蒙特卡洛方法,并在两种非光滑分布的情况下进行了数字模拟来比较算法的性能。
May, 2023
通过投影步骤(与投影随机梯度下降类似),我们将 Langevin Monte Carlo(LMC)算法扩展到紧支持测度。我们的主要结果特别表明,当目标分布是均匀分布时,LMC 在 $\tilde {O}(n^7)$ 步内混合。我们还提供初步的实验证据表明,LMC 的表现至少与 hit-and-run 相当,而 Lov {\'a} sz 和 Vempala 证明了更好的混合时间为 $\tilde {O}(n^4)$。
Jul, 2015