带有缺失数据的高斯混合模型的高效EM训练

Sep, 2012

带有缺失数据的高斯混合模型的高效EM训练

Efficient EM Training of Gaussian Mixtures with Missing Data

Olivier Delalleau, Aaron Courville, Yoshua Bengio

TL;DR通过使用生成模型（高斯混合模型）计算观察变量给定缺失变量的条件期望值来解决数据矩阵中缺少条目的问题，并利用基于生成模型的算法来填充缺失值，以提高分类学习算法的性能。

Abstract

In data-mining applications, we are frequently faced with a large fraction of missing entries in the data matrix, which is problematic for most discriminant machine learning algorithms. A solution that we explore in this paper is the use of a →

发现论文，激发创造

高斯混合多项式可学习性的解决

该论文提出了一种基于高斯混合模型的数据学习算法，可用于密度估计、数据聚类、高斯混合参数估计等问题，同时考虑了高维情况下的实际问题。

Apr, 2010

高斯混合模型的自适应种子

我们提出了用于多元高斯混合模型期望-最大化算法的新初始化方法，这些方法是K-means++初始化和Gonzalez算法的改进。我们的方法旨在弥合简单随机和高度依赖超参数选择的复杂方法之间的差距，并且我们的广泛实验表明：与将原始K-平均值++和Gonzalez直接应用于人工和现实数据集的常见技术和方法相比，我们的方法具有实用性。

Dec, 2013

高维高斯混合模型学习

在高维情况下，使用平滑分析方法可以在多项式时间内使用多项式数量的样本学习带有随机扰动参数的高斯混合模型, 通过利用高斯分布的高阶矩的组合结构并推导其对称性，探索新的高斯混合物的时刻张量的分解方法以及构建结构化随机矩阵的奇异值的下界。

Mar, 2015

正则化EM算法：统一框架与统计保证

这篇研究论文通过使用正则化技术，解决了高维数据应用中EM算法在M步时无法定义的问题，并在此基础上，具有统计保证的处理了高维混合回归、缺失变量回归等问题。

Nov, 2015

利用变分自编码器处理不完整的异质数据

本文提出了HI-VAE——一种能够处理必不可少的异构性和不完整数据的通用VAE设计框架，包括实数，正实数，区间，分类，序数和计数数据的似然模型，并展示了在监督任务中具有竞争性的预测性能。

Jul, 2018

使用深度高斯混合模型估计缺失值的条件密度

本研究提出了一种结合深度神经网络灵活性和高斯混合模型简洁性的方法来估计缺失值的条件概率分布，并实验验证了我们的模型在插补缺失值方面的有效性。

Oct, 2020

用梯度下降学习高斯混合模型的Cramer型距离

本文提出了一种适用于一般多变量GMM学习的距离函数Sliced Cramé 2-distance, 其解析形式表达简单, 且可以与神经网络顺利结合, 将其应用于Deep Q Networks代表的一些算法中, 获得了很好的表现。

Jul, 2023

高斯混合下的长尾理论

我们提出了一个简单的高斯混合模型用于数据生成，符合Feldman的长尾理论（2020）。我们证明了在线性分类器中，在所提出的模型中无法将泛化误差降低到一定水平以下，而具有记忆能力的非线性分类器可以做到。这证实了对于长尾分布，必须考虑到罕见的训练样本才能实现对新数据的最佳泛化。最后，我们展示了在线性和非线性模型之间的性能差距可以在亚种群频率分布的尾部变短时减小，这在合成和实际数据的实验中得到了证实。

Jul, 2023

使用混合变分族集合提升不完整数据的变分自动编码器估计

研究了在数据不完整的情况下对变分自动编码器的估计任务，发现缺失数据增加了模型后验分布对潜变量的复杂性，从而影响了模型的拟合。通过引入两种策略（有限变分混合和基于插补的变分混合分布），解决了增加的后验复杂性问题。通过全面评估这些方法，结果表明变分混合对不完整数据的变分自动编码器估计准确性具有提升效果。

Mar, 2024

使用扩散模型学习高斯混合模型

给出了一个新的学习高斯混合模型的算法，其目标是通过扩散模型中的得分函数以及多项式回归来高效学习混合高斯分布，对于具有最小权重假设的情况下，计算出来的误差和时间复杂度具有准多项式级别的优势，并扩展到具有支持在常数半径范围内的多个球的混合高斯的情况。

Apr, 2024