基于冗余感知的无监督基因集合排名

Jul, 2023

基于冗余感知的无监督基因集合排名

Redundancy-aware unsupervised rankings for collections of gene sets

Chiara Balestra, Carlo Maj, Emmanuel Müller, Andreas Mayr

TL;DR利用重要性分数按照覆盖集的角度对基因集合进行排序，从而增加基因集合的可解释性，并在 Shapley 值计算中引入冗余感知。

Abstract

The biological roles of gene sets are used to group them into collections. These collections are often characterized by being high-dimensi

gene sets collections importance scores shapley values redundancy awareness

发现论文，激发创造

基于集合博弈理论的无监督分类数据特征排序

本文提出了一种基于博弈理论、计算特征重要性的方法，用于无监督特征选择并消除冗余，结果表明该方法在降低冗余率的同时最大化数据信息。同时，本文还介绍了一种计算 Shapley 值的算法的近似版本，使其能够降低复杂度。

May, 2022

L-Shapley 和 C-Shapley：用于结构化数据的高效模型解释

本研究探讨了实例级特征重要性评分作为模型解释方法，并提出两种线性复杂度的算法来评估图结构数据中的特征贡献，并与其他模型解释方法进行比较。

Aug, 2018

使用大语言模型进行基因集总结

本研究提出了一种基于 GPT 模型的新的基因集功能摘要方法，该方法使用结构化文本、自由叙述基因概要或直接模型检索等来源来生成 GO 术语列表，但并不能依靠本方法来代替标准术语富集分析，手动筛选方法仍然必要。

May, 2023

Shapley Sets: 通过递归函数分解进行特征归属

本文提出了一种替代 Shapley Value 功能归属的方法，名为 Shapley Sets，通过递归函数分解算法将基础模型分解为非可分离变量组，非常适用于具有复杂依赖结构的数据类型，并与 Shapley Value 具有相同的公平公理。

Jul, 2023

基因微阵列数据的双向聚类分析

本文介绍了一种新颖的双向耦合聚类方法，用于基因芯片数据的分析：通过基于迭代聚类的算法，找到适合聚类的基因和样本的子集，从而发现在纯数据聚类时被掩盖和隐藏的新的数据分区和相关性；本方法被应用于两个基因芯片数据集，包括结肠癌和白血病数据集。

Apr, 2000

网络高效排名的物理模型

该论文提出了一种基于物理学原理的模型和高效算法，用于推断有向网络中节点的层次排名，并介绍了一种更精确的排名方式，并提供了一种对强度进行统计显著性检验的方法，应用于预测边的存在性和方向，并在实际和合成数据上分析展示出算法的效率与可扩展度。

Sep, 2017

基于鲁棒加权评分的特征选择方法用于高维二元类不平衡基因表达数据

该研究提出了一种适用于高维基因表达二分类的不平衡数据的鲁棒加权评分方法（ROWSU），通过解决基因表达数据集中高度倾斜的类分布问题，从而提高分类算法的性能。该方法通过平衡训练数据集、贪心搜索选择最小基因子集、引入支持向量计算权重的新型鲁棒评分方法，确保选择出最具辨识性的基因，并在最后与贪心搜索选择的基因子集组合以形成最终基因子集。实验证明，该方法在三种分类性能评估指标下优于现有的基于 k 最近邻（kNN）和随机森林（RF）分类器的特征选择算法。

Jan, 2024

ShaRP: 使用 Shapley 值解释排名

基于 Shapley 值的 ShaRP 框架用于解释特征对排序结果的贡献，展示了即使排名算法使用已知和线性的评分函数，特征的权重也不能与其 Shapley 值对应，而是依赖于特征分布和评分特征之间微妙的局部交互。ShaRP 在多个感兴趣的指标（包括分数、排名、成对偏好和前 k 个）上计算特征的贡献，并能解释基于分数和学习排序模型。通过实际和合成数据集的大量实验证明了 ShaRP 的有用性。

Jan, 2024

通过成对置换算法实现可解释模型

本文提出了一种名为 “pairwise permutation algorithm” 的新方法，旨在缓解高维生物数据集中特征之间的相关性偏差对特征重要性评估的影响，并在玩具数据集和微生物组数据集中进行验证。

Nov, 2021

用量子行走进行疾病基因优选

基于连续时间量子行走和蛋白质相互作用网络的新算法进行了疾病基因优先排序，通过给定的种子基因对基因或蛋白质进行得分评估，该算法具有比现有方法更高的预测疾病基因的性能，并且允许在底层哈密尔顿变换中对种子节点进行自循环的编码，进一步提高性能。

Nov, 2023