这篇论文介绍了一种基于 Bregman 距离的聚类算法,相较于 Lloyd 的 K-means 算法,在聚类非高斯数据方面有更好的表现,并提供了理论依据和实验验证。
Jun, 2022
这篇论文通过 Bregman 距离对凸函数进行聚类,引入几何平滑技术处理聚类异常,并基于过完备表示的指数家族模型发展 Bregman 距离算法。
Jun, 2012
本文提供了一种新的算法,针对子高斯混合数据,能够在存在异常值的情况下,获得最佳错误率的相对较强聚类结果。
Jun, 2023
聚类是无监督机器学习中的关键问题,如何通过混合模型来研究聚类是常见的。本文首先通过契诺夫散度建立了聚类任何混合模型的一个普遍下界,然后证明在具有次指数尾部的混合模型中,迭代算法可以达到这个下界;此外,对于更适合使用泊松或负二项式混合模型的数据集,我们研究了属于指数族的混合模型,在这种混合模型中,我们证明了一种改进的 Lloyd 算法 ——Bregman 硬聚类,是速率最优的。
Feb, 2024
在无监督学习的背景下,Lloyd 算法是最常用的聚类算法之一。本研究证明了在合适的初始化和小扰动的条件下,Lloyd 算法在从次高斯混合中扰动的样本上的误聚类率也在 O (log (n)) 次迭代后呈指数级下降的边界。
Sep, 2023
提出了一种在不强加限制性假设的情况下构建协方差估计器的原则方法,通过最小化与接近名义分布的所有数据分布相关的最坏情况 Frobenius 误差来研究分布鲁棒协方差估计问题,证明了鲁棒估计器的有效计算性、渐近一致性和有限样本性能保证,并通过合成 Kullback-Leibler、Fisher-Rao 和 Wasserstein 散度的显式估计器来说明这一通用方法。基于合成和实际数据的数值实验表明,我们的鲁棒估计器与最先进的估计器具有相竞争的性能。
May, 2024
该研究论文阐述了 Bregman 散度能够提供精确估计不满足归一化条件的连续或离散随机变量的统计模型,并证明了噪声对比估计、比率匹配和分数匹配等最近的估计方法属于该方法,最后探讨了提升在无监督学习中的作用。
Feb, 2012
本文研究了如何估计稀疏协方差矩阵,建立了在矩阵算子范数和 Bregman 散度损失下的最优收敛率,主要关注建立速率锐利的极小值下限,使用新工具解决此问题。我们首先开发了一种下边界技术,特别适用于处理估计稀疏协方差矩阵等 “双向” 问题。我们随后使用这种下边界技术,建立在谱范数下估计稀疏协方差矩阵的速率锐利的极小值下限。
Feb, 2013
本研究提出了一种新的检测离群值的高效算法,用于聚类混合的高斯模型,这种方法是鲁棒的,可以处理在数据中有少部分的失真或错误,它依赖于 TV 距离和方差有限度等假定条件,并使用极小化两种偏差的方法来修复度量误差和离群值异常。
May, 2020
研究了各种统计距离度量方法,提出了一种基于 Johnson-Lindenstrauss 引理的降维方法,可以实现任意低的失真度,并证明 Bhattacharyya 距离的嵌入具有任意低的加性误差。同时展示了 Bhattacharyya 和 Kullback-Leibler 距离的点集具有任意大的失真度,并提供了一个接近 Bhattacharyya 距离下限的嵌入方案。
Sep, 2009