具有数据选择偏差的非相关聚类

IJCAIJun, 2020

Decorrelated Clustering with Data Selection Bias

Xiao Wang, Shaohua Fan, Kun Kuang, Chuan Shi, Jiawei Liu...

TL;DR本文提出了一种新的基于 Decorrelation 正则化 K-Means 算法（DCKM）来解决数据选择偏差对于聚类算法的影响的方法，该方法通过学习全局样本权重可以平衡样本分布，进而排除特征间的意外相关性，并且通过将学习到的权重与 K 均值结合，实现了在内在数据分布上聚类，大量实验结果表明，DCKM 算法在真实世界数据集上取得了显著的性能增益。

Abstract

Most of existing clustering algorithms are proposed without considering the selection bias in data. In many real applications, however, one cannot guarantee the data is unbiased. →

clustering algorithms selection bias decorrelation regularization k-means correlation

发现论文，激发创造

用于 $k$-means 聚类的确定性特征选择

本文研究 k-means 聚类算法中的特征选择问题，提出了一种具有理论保证的确定性特征选择算法，该算法的核心是基于确定性方法的身份分解。

Sep, 2011

模型错误规范和不可知分布转移下的稳定预测

提出了一种新的 Decorrelated Weighting Regression (DWR) 算法，能够提高模型错误规范化和未知测试数据下的参数估计准确性和预测稳定性。

Jan, 2020

样本选择偏差校正理论

本文基于分布稳定性的新概念，对样本选择偏差校正进行了理论分析，研究了两种估计技术：基于簇的估计技术和核均值匹配，以及使用这些技术对几个数据集进行样本偏差校正实验。

May, 2008

消除偏见标签选择偏差的无知图神经网络

本文提出用于消除图神经网络中选择偏差的 Debiased Graph Neural Networks 方法，并通过多个实验验证其超越了现有方法，DGNN 是增强现有 GNN 的灵活框架。

Jan, 2022

改进数据集简化中的伪相关性

调研发现，数据集压缩过程中原始数据集中的颜色和背景偏差会被放大，而污染偏差会被抑制；为减少偏差放大，我们提出了一种基于样本重新加权方案的简单但高效方法，实证结果显示其有效性高于最先进的去偏方法。

Jun, 2024

无监督特征分析及类间间隔优化

该论文提出了一种基于无监督学习的特征选择方法，将最大间隔准则和基于稀疏性的模型整合到一个联合框架中，将类间间距和特征相关性同时考虑，通过将 Kmeans 嵌入框架中来生成伪类标签，从提取特征系数矩阵的稀疏结构来有效去除噪声和无关特征，并提出了一种收敛保证的算法以迭代地寻找最优解，对六个基准数据集进行了广泛的性能评估，实验结果表明，该方法的性能优于所有其他对比方法。

Jun, 2015

基于实例判别和特征去相关化的聚类友好型表示学习

本研究提出一种基于深度学习的表示学习方法，采用实例区分和特征装饰来提高聚类的效果，在 CIFAR-10 和 ImageNet-10 数据集中进行了实验，分别获得了 81.5% 和 95.4% 的准确率。

May, 2021

多核 k 均值聚类的核相关 - 不相似性

通过综合使用核相关性和差异性，我们提出了一种新的方法来提取非线性信息和实现最优聚类，从而提高聚类的性能。

Mar, 2024

图像聚类的深度全面相关挖掘

本论文提出了一种名为 DCCM 的新型聚类框架，可以从三个方面探索和充分利用未标记数据中的各种相关性，通过伪标签监督，全面的研究特征对输入空间的图像变换的稳健性，并将 triplet 互信息应用于聚类问题中，从而进一步有助于学习更有区分性的特征。在多个数据集上进行了广泛的实验，取得了良好的性能，例如在 CIFAR-10 上达到 62.3％的聚类准确度，比现有最先进方法高出 10.1％。

Apr, 2019

局部约束异相关性正则化卷积神经网络

本文介绍了一种名为 OrthoReg 的深度学习正则化技术，通过局部强制特征正交性，有效减少负相关特征权重之间的干扰，提高了特征去相关化的效果，降低了过拟合现象，可用于多种卷积神经网络数据集。

Nov, 2016