非线性特征聚合：基于理论的两个算法

Jun, 2023

非线性特征聚合：基于理论的两个算法

Nonlinear Feature Aggregation: Two Algorithms driven by Theory

Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli

TL;DR本文提出了两种基于非线性变换和广义线性模型的降维算法，分别适用于回归和分类问题，测试表明算法效果竞争力强。

Abstract

Many real-world machine learning applications are characterized by a huge number of features, leading to computational and memory issues, as well as the risk of overfitting. Ideally, only relevant and non-redundant features should be considered to preserve the complete information of the original data and limit the dimensionality. →

dimensionality reduction feature selection non-linear transformations additive gaussian noise generalized linear model

发现论文，激发创造

线性降维：调查、见解和概括

本文综述了一些线性降维方法，以及它们如何作为矩阵流形优化问题进行求解，并提出了一种基于正交投影的典型相关分析方法，这种优化框架使得线性降维成为了一种面向各种数据类型的黑盒子数值技术。

Jun, 2014

随机非线性成分分析

通过利用随机性设计了新的可伸缩非线性 PCA 和 CCA 变体，并扩展到关键的多元分析工具，例如谱聚类或 LDA，并在真实世界的数据上进行了实验，与最先进的方法进行了比较。

Feb, 2014

时间序列的双向降维的一种函数方法

本文提出了一种非线性函数对函数的降维方法，使用连续神经元的连续隐藏层来学习函数数据中固有的结构，通过降低函数特征数和观测时间点数来得到一个低维的潜在表征，从而在时间序列的维度缩减方面取得了比目前方法更好的效果。

Jan, 2023

从隐藏特征中学习：联合因子分析与潜在聚类

本文提出了一种联合因子分析和潜在聚类的框架，旨在学习矩阵和张量数据的聚类感知低维表示。该方法利用矩阵和张量分解模型来揭示潜在聚类结构，并通过潜在聚类结构作为先验信息来提高因子分解的性能。

May, 2016

基于集合博弈理论的无监督分类数据特征排序

本文提出了一种基于博弈理论、计算特征重要性的方法，用于无监督特征选择并消除冗余，结果表明该方法在降低冗余率的同时最大化数据信息。同时，本文还介绍了一种计算 Shapley 值的算法的近似版本，使其能够降低复杂度。

May, 2022

基于矩阵分解的无监督特征选择的核对齐

通过特征选择方法，将无关和冗余特征删除，以期获得原始特征的良好表示。本文构建了一个模型，通过集成核函数和核对齐，来解决非线性结构信息的捕捉问题。此外，还提出了一种多核学习方法，通过学习线性和非线性相似性信息，并自动生成最合适的核函数。在实验中，这两种方法在聚类结果和冗余减少方面表现优于其他经典和最先进的无监督特征选择方法。

Mar, 2024

通过鲁棒性选择特征以应对维度灾难

提出了一种新方法，该方法根据内在维度的计算，选择可区分数据子集的特征，有助于降低高维度和特征选择的困扰。实验证明该方法优于传统方法，并可在含数百万个数据点的数据集上应用。

Apr, 2023

对比潜变量模型的无监督学习

本文提出了一种基于概率模型的降维方法，通过在目标数据集和背景数据集之间寻找信号富集的模式，能够恢复目标数据集中潜在空间中的有趣结构，并可应用于去噪、特征选择和子组发现等领域。

Nov, 2018

特征选择：关于属性间合作的视角

研究高维数据集中的特征选择方法及其发展，包括单变量相关性排名算法、关联 - 冗余折衷和基于多变量依赖性的方法，并总结文献中各种方法的贡献，同时介绍当前的问题和挑战，以确定未来的研究和发展方向。

Jun, 2023

超越 PCA：一种概率 Gram-Schmidt 方法进行特征提取

使用概率格拉姆 - 施密特（PGS）正交化过程来探测和映射冗余维度，并通过该过程结合捕捉数据中非线性依赖的函数族构建一系列协方差矩阵，从而提取线性特征并移除非线性冗余。

Nov, 2023