能量启发模型:采样引导分布学习
本文提出了一种基于扩散概率模型的能量模型训练和采样方法,其将数据集分成一系列噪声水平并在其上训练每个 EBM,优化回收概率而非边缘概率的方式为此提供了一个简便的方法,并在多个图像数据集及 CIFAR-10 上实现了高保真采样。
Dec, 2020
能量模型(EBMs)已成为生成模型领域中一个强大的框架,通过与统计力学的原理密切契合,提供了独特的视角。本综述旨在为物理学家提供对 EBMs 的全面理解,揭示它们与其他生成模型(如 GAN、VAEs 和正规化流)的联系。我们探讨了对 EBMs 至关重要的采样技术,包括 Markov Chain Monte Carlo(MCMC)方法,并将 EBM 概念与统计力学进行了对比,强调了能量函数和配分函数的重要性。此外,我们深入研究了 EBMs 的最新训练方法,涵盖了最近的进展及其对提高模型性能和效率的影响。本综述旨在阐明这些模型之间通常复杂的相互关系,这可能是因为从事该领域研究的各个学术界群体差异较大所导致的挑战。
Jun, 2024
通过引入排名噪声对比估计(R-NCE)、可学习的负采样器和非对抗联合训练等关键因素,我们证明了高维连续空间中能量模型在训练时并不是不切实际的,我们的训练算法使能量模型作为策略在多模态路径规划和有接触力量推动等难度较高的基准测试中与扩散模型和其他最先进方法相竞争甚至表现更好。
Sep, 2023
能量模型(EBM)是一种重要的概率模型,也被称为随机场和无向图模型。EBM 是非标准化的,与其他流行的自标准化概率模型(如隐马尔可夫模型(HMMs)、自回归模型、生成对抗网络(GANs)和变分自动编码器(VAEs))截然不同。近年来,由于在理论和算法方面取得了重大进展,EBM 不仅受到核心机器学习领域的越来越多的关注,而且还受到了语音、视觉、自然语言处理(NLP)等应用领域的关注。语音和语言的序列性质也带来了特殊的挑战,并需要与处理固定维度数据(如图像)有所不同的处理方法。因此,本文的目的是系统介绍能量基模型,包括算法进展和在语音和语言处理中的应用。首先,介绍了 EBM 的基础知识,包括经典模型、最近由神经网络参数化的模型、采样方法以及从经典学习算法到最先进算法的各种学习方法。然后,介绍了 EBM 在三种不同场景下的应用,即建模边际、条件和联合分布。1)用于语言建模的序列数据的 EBM 应用,其中主要关注的是序列本身的边际分布;2)用于建模给定观测序列条件分布的 EBM,在语音识别、序列标注和文本生成方面有应用;3)用于建模观测序列和目标序列的联合分布的 EBM 及其在半监督学习和校准自然语言理解方面的应用。
Mar, 2024
本文介绍了一些在连续神经网络上训练 MCMC 的能量基础模型的技术,在许多高维度数据域上,如 ImageNet 和 CIFAR-10, 它们的样本表现优于其他可能性模型,并接近当代生成对抗网络 GAN 的表现,同时覆盖所有数据模态。此外,作者还阐述了基于 EBM 的独特能力,如组合性和损坏图像的重建和修复,最后证明 EBMs 模型是跨多种任务有用的模型,进而实现了最先进的超出分布分类、对抗性稳健分类、在线连续类学习和连续长期预测轨迹
Mar, 2019
本文提出一种名为 ALOE 的算法,该算法可以学习用于离散结构数据的有条件和无条件能量模型,其参数梯度使用模拟局部搜索的学习取样器进行估计,并且通过一种新的变分幂迭代形式有效地训练能量函数和取样器。实验结果表明,在软件测试等应用领域中,学习局部搜索可以取得显著的改进。
Nov, 2020
本文提出了一种简单的方法来训练基于能量的模型(EBMs),并将其应用于半监督分类,方法利用熵正则化的生成器来分摊在 EBM 训练中通常使用的 MCMC 采样,这使得实验结果更快、稳定和可行。
Oct, 2020
本文介绍了一种基于 Jarzynski 平等和序贯蒙特卡洛抽样工具的改进型未校正 Langevin 算法来更有效地计算交叉熵的梯度,避免了标准对比散度算法中存在的不可控逼近问题,在高斯混合分布和 MNIST 数据集上的实验结果均显示该方法优于对比散度算法。
May, 2023