非参数变分信息瓶颈下的变压器变分自编码器
当前大规模预训练和微调 Transformer 大型语言模型的范式在自然语言处理方面取得了显著的进展,然而这种大型模型容易在训练数据上过拟合,在领域变化时性能表现差,而将非参数变分信息瓶颈(NVIB)框架扩展到 Transformers 的所有类型的注意力函数可以解决过拟合问题,改变初始化可以引入一种新的基于信息论的后训练正则化的注意机制,提高领域外泛化能力,这证实了预训练的 Transformer 模型隐式地是 NV 贝叶斯模型。
Dec, 2023
本论文介绍了一种能够学习在同一模型的不同层次进行不同抽象级别压缩的语言表示模型,并通过在编码器的堆叠 Transformer 自注意力层中应用非参数变分信息瓶颈 (NVIB) 来促进表示的信息理论压缩。论文发现模型内的不同层次对应于不断增加的抽象级别,并且它们的表示更具有语言学信息。最后,实验证明 NVIB 压缩能够产生更具鲁棒性的模型,面对对抗性扰动更加稳健。
Oct, 2023
本文提出了一种层次非参数变分自编码器模型,以结合树状结构的贝叶斯非参数先验和变分自编码器来实现无限灵活性的潜在表征空间,进而在视频表征学习上取得更好的效果。
Mar, 2017
本文提出 “Deep Variational Information Bottleneck” 方法,通过可变分近似来将信息瓶颈模型参数化,使用神经网络和重新参数化技巧进行高效训练。结果显示,使用 VIB 优化训练的模型在泛化性能和对抗攻击鲁棒性方面优于其他正则化方法。
Dec, 2016
通过信息论,我们提出了一个可以重新演绎和推广现有变分方法,并设计新方法的统一原则。我们的框架基于多变量信息瓶颈的解释,其中两个贝叶斯网络相互权衡。我们将第一个网络解释为编码器图,指定了在压缩数据时要保留哪些信息;我们将第二个网络解释为解码器图,为数据指定了生成模型。利用这个框架,我们重新演绎了现有的降维方法,如深度变分信息瓶颈 (DVIB),Beta 变分自动编码器 (beta-VAE) 和深度变分规范相关分析 (DVCCA)。该框架在 DVCCA 算法族中自然引入了一个压缩和重建之间的权衡参数,从而产生了新的 Beta-DVCCA 算法族。此外,我们推导出了一种新的变分降维方法,深度变分对称信息瓶颈 (DVSIB),它可以同时压缩两个变量以保留它们压缩表示之间的信息。我们实现了所有这些算法,并在经过修改的噪声 MNIST 数据集上评估它们产生共享低维潜空间的能力。我们展示了与数据结构更匹配的算法 (Beta-DVCCA 和 DVSIB) 如何通过分类准确性和潜变量的维度来测量产生更好的潜空间。我们相信这个框架可以用来统一其他多视图表示学习算法,此外,它还为推导问题特定的损失函数提供了一个直观的框架。
Oct, 2023
该研究提出了一种将遗传算法和变分自编码器相结合的进化变分自编码器方法,通过动态生成和更新不确定性权衡学习,解决了现有方法中面临的问题,包括 KL 消失问题和基于深度学习中的早期收敛和随机搜索问题。实验结果表明,与竞争方法相比,eVAE 在文本生成、图像生成质量等方面均有显著改善。
Jan, 2023
通过引入第二个参数化的编解码对和一个额外的固定编码器,我们发展了三种 VAE 的变种,并使用神经网络学习编码器 / 解码器的参数来比较这些变种与原始 VAE 的 ELBO 逼近。其中一种变化导致了一个 EUBO,可以与原始 ELBO 一起用于研究 VAE 的收敛性。
Dec, 2022
本文提出了一种无监督的生成性聚类框架,将变分信息瓶颈和高斯混合模型相结合。使用变分信息瓶颈方法将潜空间建模为高斯混合物,并导出了一个代价函数的界限,并提供了一种可计算它的变分推断类型算法。通过神经网络参数化编码器映射,并通过蒙特卡罗采样逼近边界,并用随机梯度下降进行优化。提供了真实数据集的数值结果,证明了我们方法的有效性。
May, 2019
本文主要介绍了自动编码变分贝叶斯算法 (AEVB) 的理论及应用,阐明了其与经典的期望最大化算法 (EM) 之间的联系及其适用范围,同时详细介绍了重要概念如一致化 (amortization) 和参数重参数化技巧 (reparametrization trick),最后通过应用该算法到非深度和深度潜变量模型,并提供了 PyTorch 实现代码。
Aug, 2022
本文提出了一种基于深度神经网络的变分自编码器,使用实值非体积保存变换来准确计算数据的条件似然,采用由少量中间层组成的强大条件耦合层来使其学习效果更好,在图像建模任务上有着不错的表现。
Nov, 2016