本文提出了一种基于博弈理论、计算特征重要性的方法,用于无监督特征选择并消除冗余,结果表明该方法在降低冗余率的同时最大化数据信息。同时,本文还介绍了一种计算 Shapley 值的算法的近似版本,使其能够降低复杂度。
May, 2022
本研究探讨了实例级特征重要性评分作为模型解释方法,并提出两种线性复杂度的算法来评估图结构数据中的特征贡献,并与其他模型解释方法进行比较。
Aug, 2018
本研究提出了一种基于 GPT 模型的新的基因集功能摘要方法,该方法使用结构化文本、自由叙述基因概要或直接模型检索等来源来生成 GO 术语列表,但并不能依靠本方法来代替标准术语富集分析,手动筛选方法仍然必要。
May, 2023
本文提出了一种替代 Shapley Value 功能归属的方法,名为 Shapley Sets,通过递归函数分解算法将基础模型分解为非可分离变量组,非常适用于具有复杂依赖结构的数据类型,并与 Shapley Value 具有相同的公平公理。
Jul, 2023
本文介绍了一种新颖的双向耦合聚类方法,用于基因芯片数据的分析:通过基于迭代聚类的算法,找到适合聚类的基因和样本的子集,从而发现在纯数据聚类时被掩盖和隐藏的新的数据分区和相关性;本方法被应用于两个基因芯片数据集,包括结肠癌和白血病数据集。
Apr, 2000
该论文提出了一种基于物理学原理的模型和高效算法,用于推断有向网络中节点的层次排名,并介绍了一种更精确的排名方式,并提供了一种对强度进行统计显著性检验的方法,应用于预测边的存在性和方向,并在实际和合成数据上分析展示出算法的效率与可扩展度。
Sep, 2017
该研究提出了一种适用于高维基因表达二分类的不平衡数据的鲁棒加权评分方法(ROWSU),通过解决基因表达数据集中高度倾斜的类分布问题,从而提高分类算法的性能。该方法通过平衡训练数据集、贪心搜索选择最小基因子集、引入支持向量计算权重的新型鲁棒评分方法,确保选择出最具辨识性的基因,并在最后与贪心搜索选择的基因子集组合以形成最终基因子集。实验证明,该方法在三种分类性能评估指标下优于现有的基于 k 最近邻(kNN)和随机森林(RF)分类器的特征选择算法。
Jan, 2024
基于 Shapley 值的 ShaRP 框架用于解释特征对排序结果的贡献,展示了即使排名算法使用已知和线性的评分函数,特征的权重也不能与其 Shapley 值对应,而是依赖于特征分布和评分特征之间微妙的局部交互。ShaRP 在多个感兴趣的指标(包括分数、排名、成对偏好和前 k 个)上计算特征的贡献,并能解释基于分数和学习排序模型。通过实际和合成数据集的大量实验证明了 ShaRP 的有用性。
本文提出了一种名为 “pairwise permutation algorithm” 的新方法,旨在缓解高维生物数据集中特征之间的相关性偏差对特征重要性评估的影响,并在玩具数据集和微生物组数据集中进行验证。
Nov, 2021
基于连续时间量子行走和蛋白质相互作用网络的新算法进行了疾病基因优先排序,通过给定的种子基因对基因或蛋白质进行得分评估,该算法具有比现有方法更高的预测疾病基因的性能,并且允许在底层哈密尔顿变换中对种子节点进行自循环的编码,进一步提高性能。
Nov, 2023