预测聚类与优化的普适性框架

May, 2023

A Generalized Framework for Predictive Clustering and Optimization

Aravinth Chembu, Scott Sanner

TL;DR本文研究了一种以监督学习为基础的聚类分析方法，该方法结合了回归和分类，采用整数线性规划方法以及高度可扩展的贪心算法，支持不同类型的聚类定义，并能够展示数据中不同的可解释性的离散聚类结构。

Abstract

clustering is a powerful and extensively used data science tool. While clustering is generally thought of as an unsupervised learning technique, there are also supervised variations such as Spath's clusterwise

clustering supervised learning regression optimization data analysis

发现论文，激发创造

大规模相关聚类优化

本文聚焦于 Correlation Clustering functional，它结合了数据点之间的正面和负面亲和性。文章的贡献包括两个方面，一是提供了该函数的理论分析；二是提出了新的优化算法，能够处理无法使用现有方法解决的大规模问题（>100K 变量）。通过对该函数的理论分析，发现该函数具备概率生成解释的能力，并且合理地解释了其内在的 “模型选择” 能力。此外，文章还探索了该函数和 well-known Potts 能量最小化之间的类比，这为我们提出了几种新的优化算法，这些算法利用函数的内在 “模型选择” 能力，可以自动恢复基础聚类数。与此同时，文章还介绍了两种新的应用领域：无监督人脸识别和通过粗略边界描绘实现的交互式多对象分割。

Dec, 2011

监督无监督学习

提出了一种框架，利用从一组有监督数据集获取的知识来处理新的无监督数据集，该框架可以减少无监督学习中的主观性并提供一种评估无监督算法的原则方法，在聚类方面，它可以帮助选择聚类数量和算法，去除异常值并从许多小数据集中学习共性特征，从而实现了零样本学习。

Sep, 2017

UCSL: 一种基于机器学习期望最大化框架的无监督聚类算法

本文提出了一种名为 UCSL 的泛化期望最大化集成框架，该框架是一种无监督聚类方法，可以整合任何聚类方法，并可以由二元分类和回归驱动，通过提出一种基于聚类的非线性模型结合多个线性评估器来实现。而且，为了在更合适的空间中进行聚类分析，我们还提出了一种有效的降维算法。该算法可用于精神疾病聚类分析，并且在平衡准确性方面相对于现有技术方面具有 + 1.9 的增益。

Jul, 2021

通过最优树实现可解释的聚类

本文介绍了一种新的无监督学习算法，利用混合整数优化技术生成可解释的基于树的聚类模型，以提高群集算法的可解释性，并在医疗应用中具有重要意义。

Dec, 2018

深度约束聚类框架 —— 算法和新进展

这篇论文介绍了一种基于深度学习的约束聚类框架，可应用于连续数据和高层领域知识等不同类型的约束条件，相比基于传统算法的方法，效果更好。

Jan, 2019

带最优图的统一谱聚类

本文提出了一种改进的光谱聚类算法，旨在解决预定义的相似性图可能不是合适的聚类结果，并且传统离散化解决方法与光谱解决方案可能不一致的问题，并引入多核学习来解决如何选择最适合特定数据集的核的应用挑战。实验结果表明，该方法相比于现有的聚类方法具有更好的性能。

Nov, 2017

多面体机器可解释聚类

本文提出了一种新颖的解释性聚类方法，通过在发现的聚类周围构建多面体来解释它们，同时将多面体的超平面约束为轴平行或稀疏整数系数，将构造聚类簇的问题形式化为混合整数非线性规划（MINLP）.

Dec, 2021

从大到小的数据集：聚类算法选择的尺寸泛化

在半监督环境中，通过引入聚类算法准确性的大小泛化概念，我们可以通过对较小的实例集进行评估，并保证在原始大型实例上具有最好准确性的算法也在小实例上具有最好准确性。

Feb, 2024

回归中的相关变量：聚类与稀疏估计

利用基于规范相关的层次聚类算法，针对强相关的高维线性模型提出了一种首先聚类变量然后进行稀疏估计的方法，其中对聚类代表采用 Lasso 算法或结构基于聚类的组 Lasso 算法进行后续稀疏估计，并给出理论分析和实验证明了该方法的优越性。

Sep, 2012

稀疏高斯过程回归的有效优化

我们提出了一种高效的优化算法，用于选择训练数据的子集以在高斯过程回归中引入稀疏性。该算法使用单个目标（边际似然或变分自由能）估计引入集合和超参数。其空间和时间复杂度与训练集大小呈线性关系，可以应用于离散或连续域上的大型回归问题。实证评估显示出在离散情况下的最新性能和连续情况下的竞争结果。

Oct, 2013