带有缺失数据的高斯混合模型的高效EM训练
我们提出了用于多元高斯混合模型期望-最大化算法的新初始化方法,这些方法是K-means++初始化和Gonzalez算法的改进。我们的方法旨在弥合简单随机和高度依赖超参数选择的复杂方法之间的差距,并且我们的广泛实验表明:与将原始K-平均值++和Gonzalez直接应用于人工和现实数据集的常见技术和方法相比,我们的方法具有实用性。
Dec, 2013
在高维情况下,使用平滑分析方法可以在多项式时间内使用多项式数量的样本学习带有随机扰动参数的高斯混合模型, 通过利用高斯分布的高阶矩的组合结构并推导其对称性,探索新的高斯混合物的时刻张量的分解方法以及构建结构化随机矩阵的奇异值的下界。
Mar, 2015
这篇研究论文通过使用正则化技术,解决了高维数据应用中EM算法在M步时无法定义的问题,并在此基础上,具有统计保证的处理了高维混合回归、缺失变量回归等问题。
Nov, 2015
本文提出了HI-VAE——一种能够处理必不可少的异构性和不完整数据的通用VAE设计框架,包括实数,正实数,区间,分类,序数和计数数据的似然模型,并展示了在监督任务中具有竞争性的预测性能。
Jul, 2018
本文提出了一种适用于一般多变量GMM学习的距离函数Sliced Cramé 2-distance, 其解析形式表达简单, 且可以与神经网络顺利结合, 将其应用于Deep Q Networks代表的一些算法中, 获得了很好的表现。
Jul, 2023
我们提出了一个简单的高斯混合模型用于数据生成,符合Feldman的长尾理论(2020)。我们证明了在线性分类器中,在所提出的模型中无法将泛化误差降低到一定水平以下,而具有记忆能力的非线性分类器可以做到。这证实了对于长尾分布,必须考虑到罕见的训练样本才能实现对新数据的最佳泛化。最后,我们展示了在线性和非线性模型之间的性能差距可以在亚种群频率分布的尾部变短时减小,这在合成和实际数据的实验中得到了证实。
Jul, 2023
研究了在数据不完整的情况下对变分自动编码器的估计任务,发现缺失数据增加了模型后验分布对潜变量的复杂性,从而影响了模型的拟合。通过引入两种策略(有限变分混合和基于插补的变分混合分布),解决了增加的后验复杂性问题。通过全面评估这些方法,结果表明变分混合对不完整数据的变分自动编码器估计准确性具有提升效果。
Mar, 2024
给出了一个新的学习高斯混合模型的算法,其目标是通过扩散模型中的得分函数以及多项式回归来高效学习混合高斯分布,对于具有最小权重假设的情况下,计算出来的误差和时间复杂度具有准多项式级别的优势,并扩展到具有支持在常数半径范围内的多个球的混合高斯的情况。
Apr, 2024