Mar, 2024

基于能源的模型在语音和语言处理中的应用

TL;DR能量模型(EBM)是一种重要的概率模型,也被称为随机场和无向图模型。EBM 是非标准化的,与其他流行的自标准化概率模型(如隐马尔可夫模型(HMMs)、自回归模型、生成对抗网络(GANs)和变分自动编码器(VAEs))截然不同。近年来,由于在理论和算法方面取得了重大进展,EBM 不仅受到核心机器学习领域的越来越多的关注,而且还受到了语音、视觉、自然语言处理(NLP)等应用领域的关注。语音和语言的序列性质也带来了特殊的挑战,并需要与处理固定维度数据(如图像)有所不同的处理方法。因此,本文的目的是系统介绍能量基模型,包括算法进展和在语音和语言处理中的应用。首先,介绍了 EBM 的基础知识,包括经典模型、最近由神经网络参数化的模型、采样方法以及从经典学习算法到最先进算法的各种学习方法。然后,介绍了 EBM 在三种不同场景下的应用,即建模边际、条件和联合分布。1)用于语言建模的序列数据的 EBM 应用,其中主要关注的是序列本身的边际分布;2)用于建模给定观测序列条件分布的 EBM,在语音识别、序列标注和文本生成方面有应用;3)用于建模观测序列和目标序列的联合分布的 EBM 及其在半监督学习和校准自然语言理解方面的应用。