数值数据的粗拓扑
提出了一种基于空间优化的粗糙集属性约简算法,通过引入空间相似性的概念,找到具有最高空间相似性的约简,使得约简与决策属性之间的空间相似性更高,从而得到更加简明和广泛的规则,并通过与传统的粗糙集属性约简算法的比较实验证明了基于空间优化的粗糙集属性约简算法的有效性,对许多数据集取得了显著改进。
May, 2024
此篇论文提出了一种基于粗糙集的数据挖掘方法,实现了特征选择、分类和知识表示,通过相对重要性提出了粗糙集的效率和准确性,为知识表示和分类提出了粗糙概念树。实验结果表明,该框架比七种流行的或最新的特征选择方法具有更高的准确性。
Dec, 2021
本研究通过收集人类和数据科学、统计学以及工程专家的反馈,分析了数值属性的分割,提出了两种度量方法,结果显示约 68.7% 的人类反馈与我们的度量方法一致,因此我们的度量方法可作为一种用于数值属性离散化的方法之一。
Nov, 2023
该研究介绍了一种基于主观趣味性框架的方法,用于在高维数据中查找最具信息量的子组。该方法可以同时考虑多个实值目标属性,并且通过迭代数据挖掘支持知识的应用。
Oct, 2017
本文提出了一种基于领域本体的聚类方法,通过使用领域本体,将数字数据集的属性降维,并使用 GenClust ++ 聚类技术将数据集聚类成高质量的群集。实验结果表明,基于本体论的方法可以逐渐改善域本体的低到高水平的集群质量
Apr, 2023
最近,机器学习领域已经从以模型为中心转向以数据为中心,通过积累更广泛的数据集,便于在这些数据集上训练更大型的模型,我们引入一种先进的方法 RK-core,以增进对数据集内复杂的层次结构的更深入了解。我们发现,核心性值较低的样本在各自类别中具有较低的代表性,而核心性值较高的样本则表现出更高的代表性。与之相关的是,核心性值较高的样本在性能上比核心性值较低的样本做出更实质的贡献。在此基础上,我们进一步运用 RK-core 来分析不同 coreset 选择方法下样本的层次结构。令人惊讶的是,高质量的 coreset 应该表现出层次多样性而不仅仅是代表性样本。
Oct, 2023
本文提出一种系数来衡量网络是否具有明显的核心 - 外围结构,并对多个真实网络和模型网络进行了测量,发现不同类型的网络有其特定的系数值。此外,还分析了核心区域的放射性统计特性,发现几乎所有网络在距离核心一定距离的 n - 邻域内具有意外的较多边缘,暗示了非平凡网络过程的有效作用半径。
Jun, 2005
提出了一种基于模糊粗糙集理论的新型 Choquet 距离测量方法,该方法能够灵活捕捉数据中的非线性关系,结合了条件属性对决策属性的相互作用,从而使距离更加灵活和准确。在机器学习中应用该方法,特别强调基于距离的分类方法(如 k 最近邻),并研究了两种基于正区域的模糊粗糙集测量方法,以及两种从模糊粗糙集理论中推导出的使其适用于 Choquet 积分的单调化程序,并探讨了它们之间的差异。
Mar, 2024