带导向正则化随机森林的基因选择

Sep, 2012

带导向正则化随机森林的基因选择

Gene selection with guided regularized random forest

Houtao Deng, George Runger

TL;DR提出了一种改进的 random forests 模型，也称为 guided RRF，用于选择特征的过程中采用了一个普通 random forest 的重要性评分，实验表明该模型在基因数据集上的准确性表现更为稳健。

Abstract

The regularized random forest (RRF) was recently proposed for feature selection by building only one ensemble. In RRF the features are evaluated on a part of the training data at each tree node. We derive an upper bound for the number of distinct Gini information gain values in a node,

regularized random forest feature selection gene data sets guided rrf accuracy performance

发现论文，激发创造

RRF 包中的 Guided Random Forest

该论文提出了引导随机森林（GRF）来进行特征选择，GRF 可以独立地构建树并可并行实现，与 GRRF 相比，GRF 选择的特征更多，但分类精度更高，实验证明，在 10 个高维基因数据集上 RF 在特征选择后的应用优于 RF 在所有特征上的应用。

Jun, 2013

网络引导的随机森林用于疾病基因发现的评估

基于网络导向的随机森林算法在基因表达数据分析中对于疾病模块和通路识别表现出一定的性能。然而，在疾病预测方面，网络导向的随机森林并没有提供比标准随机森林更好的结果；然而，如果疾病基因形成模块且给定网络中的基因与疾病状态独立，则网络导向的随机森林能够更准确地识别它们，但会在使用网络信息时尤其在中心基因上产生虚假的基因选择结果；我们对 TCGA 的两个平衡的微阵列和 RNA-Seq 乳腺癌数据集进行了经验分析，用于对孕激素受体（PR）状态的分类，结果显示网络导向的随机森林能够识别与 PGR 相关的通路中的基因，从而得到更好的基因模块连接。

Aug, 2023

随机特征模型的隐式正则化

本文探讨了随机特征模型和核岭回归之间的联系，并发现了有限 RF 取样的隐式正则化效应，同时对比了使用 KRR 预测器的风险和使用 RF 预测器的平均风险并获得了它们之间差异的明确界限，最终在实验中发现了平均 λ-RF 预测和 tilde λ-KRR 预测器之间的极好一致性。

Feb, 2020

广义随机森林

该研究提出了广义随机森林方法，用于基于随机森林进行非参数统计估计，可以用于拟合任何被识别为满足一组局部矩方程的解的感兴趣数量，提出了一种灵活且计算有效的算法以及新的非参数回归，条件平均偏差估计和异质性治疗效应估计方法，通过本研究可用 GRF 软件实现。

Oct, 2016

随机森林指南

该论文综述了随机森林算法的理论和方法发展，重点讨论了参数选择、重采样机制和变量重要性测量等数学因素驱动该算法，并强调了其在分类、回归和变量重要性测量等方面的应用。

Nov, 2015

随机森林中的相关性和变量重要性

本篇论文针对高维回归或分类框架中预测变量高度相关的情况下的变量选择问题，研究使用随机森林算法的变量选择。论文提供了一种理论研究和模拟实验的方式，证明了使用递归特征排除算法作为排名标准对变量进行选择的高效性，并进行了陆地卫星数据集的测试。

Oct, 2013

最优加权随机森林

本文提出了一种基于权重优化的随机森林算法，通过极小化预测误差和风险来决定基本学习器的权重，实验结果显示该算法在回归问题上的预测精度优于其他算法。

May, 2023

基于数据相关随机特征的去中心化核岭回归

在去中心化的核岭回归中，为了保证节点之间的一致性，通常会对特征系数施加约束，但是在许多应用中，不同节点上的数据在数量或分布上存在显著差异，因此需要能够生成不同随机特征的自适应和数据相关方法。针对这个关键难题，本文提出了一种新的去中心化核岭回归算法，该算法通过追求决策函数的一致性，实现了对节点上数据的灵活适应。经过严格的收敛性分析和数值验证，我们得出结论：在保持与其他方法相同的通信开销的同时，我们在六个真实世界数据集中平均提高了 25.5％的回归准确性。

May, 2024

机器学习模型中用于识别分布外数据的减少鲁棒性随机切割森林

本文介绍了一种使用 Reduced Robust Random Cut Forest (RRRCF) 数据结构的新方法来检测数据集是否处于训练分布，该方法在低维和高维数据的实证结果表明可以有效地进行数据分布的推断，而且该模型易于训练，并且不需要进行困难的超参数调整，用例包括测试和验证结果。

Jun, 2022

斯坦随机特征回归

在大规模回归问题中，通过通过定义核函数的谱密度，利用 Monte Carlo 抽样生成有限的样本集合以形成近似的低秩高斯过程（GP），随机 Fourier 特征（RFFs）显著提高了 GP 的计算可扩展性和灵活性。然而，RFFs 在核逼近和贝叶斯核学习中的有效性取决于能否轻松地采样核谱测度并生成高质量的样本。我们引入 Stein 随机特征（SRF），利用 Stein 变分梯度下降，可以用于生成已知谱密度的高质量 RFF 样本，以及灵活高效地近似传统上非分析的谱测度后验。SRFs 只需要评估对数概率梯度，即可同时进行核逼近和贝叶斯核学习，从而在传统方法上实现更好的性能。通过将其与基准模型在核逼近和众所周知的 GP 回归问题上进行比较，我们经验证明了 SRF 的有效性。

Jun, 2024