特征域中的数据冗余的概率模型

Sep, 2023

A Probabilistic Model for Data Redundancy in the Feature Domain

Ghurumuruhan Ganesan

TL;DR采用概率模型估计大数据集中无相关特征的数量，该模型考虑了特征之间的两两相关性和多个特征之间的相互依赖性，并使用概率方法得出了低相关性和低多重共线性特征集的数量的上下界，我们还证明了互相好的受限集的一个独立的有趣结果。

Abstract

In this paper, we use a probabilistic model to estimate the number of uncorrelated features in a large dataset. Our model allows for both pairwise feature correlation (collinearity) and →

probabilistic model uncorrelated features pairwise feature correlation interdependency of multiple features feature set

发现论文，激发创造

通过探索分布结构来研究特征

基于数据集的概率建模和对噪声的鲁棒性广泛测量，本文提出了一种新的数据冗余度测量框架和检测标准，并使用确定性和随机优化技术开发了新的数据冗余度减少方法。我们在基准数据集上进行的实验表明了我们方法的有效性，并为监督和无监督学习问题提出了一种新的特征选择视角和提出了有效且鲁棒的方法。

Jan, 2024

依赖数据的统计估计

提出一种基于马尔科夫随机场的方法，考虑了相互依赖的二元标签，实现了对相关数据的统计有效估计，并在逻辑回归、稀疏逻辑回归和神经网络等多个领域进行了探究。结果表明该方法可以更准确地估计参数，比传统的回归方法效果更好。在 Cora、Citeseer 和 Pubmed 等数据集中验证了该方法的有效性。

Jul, 2021

学习统计推断相关特征

通过深度典型相关分析 (DCCA) 找出可以最真实地从一种数据视角推导出的特征，进而构建出一非参数隐含联合概率分布的经典版本，以求解贝叶斯估算和标准偏差，并测试其在 OCCLUD MNIST 图像推理和监督学习中的可行性和效率，同时探索了发现单个数据集中显著的独立变量的可能性。

Apr, 2019

通过成对置换算法实现可解释模型

本文提出了一种名为 “pairwise permutation algorithm” 的新方法，旨在缓解高维生物数据集中特征之间的相关性偏差对特征重要性评估的影响，并在玩具数据集和微生物组数据集中进行验证。

Nov, 2021

多元概率时间序列预测与相关误差

通过对误差的自相关特性进行高效建模，本研究提出一种能够有效量化预测不确定性的方法，并在多个实际数据集上验证了其在提高预测准确性和不确定性量化质量方面的有效性。

Feb, 2024

基于集合博弈理论的无监督分类数据特征排序

本文提出了一种基于博弈理论、计算特征重要性的方法，用于无监督特征选择并消除冗余，结果表明该方法在降低冗余率的同时最大化数据信息。同时，本文还介绍了一种计算 Shapley 值的算法的近似版本，使其能够降低复杂度。

May, 2022

基于个例的特征选择和排序的共轭

我们提出了一种基于高斯联合分布的特征选择方法，该方法可以在神经网络中进行实例级的特征选择，并捕捉变量之间的相关性。实验结果表明，我们的方法能够准确地捕捉到有意义的相关性。

Aug, 2023

高维回归分析中的因子模型和变量选择

本文提出了一种因子方法来同时考虑模型选择和功能回归的视角，通过将预测向量分解为反映解释变量的共同因素和特定变异性的两个不相关随机分量，以包括主成分作为额外的解释变量在增广回归模型中，维度高于样本大小的线性回归问题中传统假设的稀疏向量参数是具有限制性的，模型选择程序可以用于估计增广模型的参数，并得出其理论性质和有限样本表现。

Feb, 2012

从特征角度解决文本数据关联性问题：去除无关信息，提取相关信息

本文针对自然语言理解领域模型的数据集偏见问题，提出了一种基于特征空间视角的微调方法，使用随机傅里叶特征和加权重采样来解耦特征之间的依赖，并设计了基于互信息的方法来净化这些特征，实验表明该方法优于其他对比方法。

Feb, 2022

基于 Copula 的核依赖度量

本文提出了一种基于 copula 的新型随机变量依赖度测量方法，延伸了 MMH 方法至联合分布的 copula，该方法类似于 Shannon 互信息，能够不受边缘变量任何严格增加变换的影响，重要的是在很多应用中，例如特征选择。本文通过一系列实验说明了理论贡献的作用在于特征选择和低维分布嵌入中。同时，该方法的估计是始终如一的，对离群值具有鲁棒性，并仅使用排名统计数据。该方法提出了收敛速率和独立性检验的上界。

Jun, 2012