- 通过知识图谱整合异质基因表达数据,提升糖尿病预测能力
通过整合多个基因表达数据集和领域特定知识,利用知识图谱嵌入方法生成向量表示,并用于分类器,本研究提出了一种新的方法,改善了糖尿病预测。
- 基于自然启发计算的癌症筛查集成方法的全面利用
准确筛选肿瘤类型对于有效的癌症检测和精确的治疗选择至关重要。本研究提出了一种名为进化优化的多样化集成学习(EODE)的框架,用于改进基因表达数据的癌症分类的集成学习。实验证明,EODE 相对于单独和传统聚合模型,在 35 个基因表达基准数据 - 朝着生物学上合理且私密的基因表达数据生成
通过系统分析五种代表性的差分隐私生成方法在真实世界中基因表达数据情境下的表现,本研究揭示了这些方法各自的特点和优缺点,发现它们无法准确捕捉真实数据集的生物特征,并强调了模型设计方面的亟需未来优化。
- KDD贝叶斯非参数潜在分组模型的分布式 MCMC 推理
通过引入基于分布式马尔可夫链蒙特卡洛的非参数贝叶斯潜在块模型推理方法,采用主 / 从体系结构,本文介绍了一种新颖的分布式非参数潜在块模型。我们的非参数共聚类算法使用潜在的多元高斯块分布将观察和特征分为多个分区,行上的工作负载平均分配给工作者 - 基于统计和机器学习方法的基因表达谱分析的比较分析
机器学习模型在表达基因数据的表型分类方面取得了好的性能,通过提取决策的解释,这些模型能提供对表型的理解,讨论了这种解释的生物学和方法论限制,并在癌症和健康组织样本的多个数据库上进行了实验。
- 基于机器学习的分析:埃博拉病毒对非人类灵长类动物基因表达的影响
这项研究引入了基于机器学习的监督型振幅 - 高度评分(SMAS)方法,用于分析非人灵长类动物(NHPs)感染埃博拉病毒(EBOV)的基因表达数据。我们利用一组全面的 NanoString 基因表达谱数据集,采用 SMAS 系统进行微妙的宿主 - TTMFN: 基于双流变压器的多模态融合网络用于生存预测
我们提出了一种名为 Two-stream Transformer-based Multimodal Fusion Network for survival prediction (TTMFN) 的新型框架,综合了病理图像和基因表达数据,通过 - 稀疏惩罚的双聚类方法
该研究回顾了几种用于识别基因表达数据中最重要的聚类的双聚类方法,重点介绍了 SSVD(稀疏 SVD)方法,并尝试了一种新的稀疏惩罚,名为 “Prenet 惩罚”,该方法在因子分析中仅被使用,以获得稀疏性。随后,在模拟研究中,我们尝试了不同类 - 从稳态基因数据样本推导概率布尔网络
本文提出一种可重复的方法,直接从真实基因表达数据中推断 PBN,该方法不依赖于重构网络状态的演化,这使得较大的网络的计算变得困难。
- 基于自适应 K 近邻的多目标 PSO 微阵列表达数据基因选择
本研究提出了一种新的方法,使用基因表达数据进行癌症分类问题的解决,首先运用信噪比算法筛选出非冗余基因的子集,然后运用多目标粒子群算法进行特征选择,并采用自适应 K 最近邻算法进行癌症分类,从而提高了癌症分类的准确性。
- ICML可微特征选择和重构的混凝土自编码器
本篇论文提出了一种基于可微分的具体选择器层的端到端不监督学习方法,用于全局特征选择并同时重构输入数据,通过在训练过程中逐渐降低具体选择器层的温度来学习特征,并在测试时用所选特征与解码器网络一起重构其余输入特征。该方法在各种数据集上得到了验证 - 利用基因相互作用图进行基因表达卷积
研究使用深度学习应用到基因表达数据的挑战,发现存在非线性信号但需要使用基因交互图结合图卷积神经网络和基因嵌入以利用图信息来克服数据量不足的问题,但模型表现依赖于图的质量,并发现更多工作需要在这个方向上展开。
- 带岭正则线性模型的马尔可夫边界发现
本研究提出了一种修改后的岭回归方法,可以在减小空间的基础上识别潜在的 Markov 边界。实验结果表明,这种方法在基因表达数据的 Markov 边界发现方面具有很强的实用性。
- 先验组件数量的混合模型
使用 Dirichlet 过程混合(DPM)模型可用于推断基因表达数据,同时也可以直接应用于混合的有限混合模型(MFM)中,具有类似的数学性质。
- 高维数据的子空间聚类:预测性方法
本论文提出了一种新的预测子空间聚类方法,该方法可以将高维数据划分为互不相交的线性子空间聚类,同时估计子空间的 PCA 参数,实现变量选择,经过实验在基因表达数据集上得到了较好的结果。
- 多类别下的逆协方差估计联合图形拉索
本文研究使用高维数据集对多个相关但不同的图形模型进行估计问题,在基于组织样本的基因表达数据的分析中应用联合图形 Lasso 方法,以获得更准确的网络和协方差结构估计。
- NIPS一种使用随机投射在高维空间中实现更强大的双样本检验方法
在高维情形下考虑了检验两个多元正态分布均值差异的统计假设检验问题,其中引入了投影方法和 Hotelling T^2 统计量,并针对高维条件下的渐近推理,概述了测试的渐近功效函数以及通往提高其他最先进测试功效的充分条件,最后通过基于 ROC - 非参数贝叶斯稀疏因子模型及其在基因表达建模中的应用
提出了一种非参数贝叶斯因子分析(FA)的扩展,其中观察数据 𝐘 被建模为潜在无限个隐藏因素 𝐗 的线性叠加 𝐆,使用印度自助餐过程(IBP)作为先验来描绘稀疏性并允许推断潜在特征的数量,使用基于已知 E. Coli 稀疏连接 - 稀疏调节网络
该论文提出了一种新的方法,结合观察到的基因表达数据和先前关于网络结构的信息,使用 $L_1$ 惩罚对网络进行稀疏化,从而估计转录调节网络。该方法在计算效率和对网络结构的假设方面都具有优点。该方法被用于构建大肠杆菌的 TRN,并且该估计是生物 - 互信息的下界
我们发现在 A. Kraskov 等人的文章中声称两个实值随机变量之间的互信息的下界存在错误,并提出了一种新的方法建立在较弱的假设下得到较紧的下界,并在基因表达数据中展示了这种方法的实用性。