- 二叉决策树和随机森林中的条件偏差及其消除
本文通过调查决策树和随机森林分类与回归中的条件操作符选择的偏差,针对具有格特征的特征的存在,提出了消除这种偏差的技术,并证明了偏差可能导致 AUC 和 r² 得分的显著差异。此外,通过提出的技术与最坏情况相比,在 AUC 和 r² 得分方面 - 基于随机森林变量重要性的类别不平衡问题选择算法
在这篇论文中,研究了类平衡对随机森林变量重要性的影响,并提出了一种利用随机森林变量重要性和置信区间的变量选择算法,在实验研究中表明该算法可以有效地选择最优特征集,改善类不平衡问题的预测性能。
- 关于随机森林中节点数量和树数量之间的折衷
本论文主要研究将一组决策树表示为较小的一组决策树的问题,其中只考虑二进制域上的二元决策问题和简单决策树。通过实验,我们展示了如果 $n-T$ 是一个常数,即 $n$ 和 $T$ 必须是奇数(以避免并列情况),则 $n$ 个变量的多数函数可以 - 可解释学习的功能响应变形材料的生成逆向设计
通过随机森林的可解释性,提出了一种单次逆设计方法 RIGID,用于快速生成具有所需功能行为的变形材料设计。该方法不需要训练映射关系的逆模型,而是通过马尔科夫链蒙特卡洛方法从训练的前向模型导出目标满足的设计解决方案的条件分布。在仅有少量数据的 - 基于示例的随机森林预测解释
通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测;因此,每个预测可以由这些权重非零的训练示例集来解释。研究发现,这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关,这意味着可以通过变化这些参 - 高维小样本分类的随机森林差异性
使用经学习的预计算支持向量机核函数的随机森林相似度度量,我们通过对 40 个高维低样本量分类数据集进行实验证明了该方法在大多数高维低样本量问题上优于现有方法,并且在低维非高维低样本量问题上仍然具有很强的竞争力。
- 评估睡眠阶段分类:年龄和早晚睡眠如何影响分类绩效
使用小波进行特征提取,随机森林进行分类的自动睡眠阶段分类方法,评估了受试者年龄和睡眠时间对分类器性能的影响。研究发现,这些变量确实对自动模型的性能产生影响,改善了一些睡眠阶段的分类,但恶化了其他阶段的分类。
- 提升随机森林的本地可解释性:一种基于邻近性的方法
通过利用随机森林模型中的特征空间中的点之间的相似性,我们提出了一种新的方法来解释随机森林的样本外表现,这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值,并为模型预测生成任何观测的归因,从而补充了 SHAP 等现有的针对模型 - 二十一世纪的宗教隶属关系:基于机器学习的世界价值观调查视角
该研究利用全球通过世界价值观调查收集的数据进行定量分析,研究了社会中个体宗教信仰、价值观和行为的变化轨迹。利用随机森林,通过国家级数据识别出宗教性的关键因素,并将调查中的受访者分类为宗教和非宗教。通过平衡数据和改进不平衡学习性能指标的重采样 - 预测事故严重程度:使用随机森林模型分析影响事故严重程度的因素
这项研究调查了使用随机森林机器学习算法预测事故严重程度的有效性,在大型都市地区的事故记录数据集上训练模型并使用各种指标进行评估,结果显示随机森林模型能够有效地预测事故严重程度,准确率超过 80%,并确定了模型中最重要的变量,包括风速、气压、 - 支持连续学习系统开发的机器学习训练时间预测
研究预测机器学习模型训练时间的问题,评估 Full Parameter Time Complexity 方法在 Logistic Regression 和 Random Forest 分类器中的表现,并指出其主要优势和弱点,发现训练时间的预 - 网络引导的随机森林用于疾病基因发现的评估
基于网络导向的随机森林算法在基因表达数据分析中对于疾病模块和通路识别表现出一定的性能。然而,在疾病预测方面,网络导向的随机森林并没有提供比标准随机森林更好的结果;然而,如果疾病基因形成模块且给定网络中的基因与疾病状态独立,则网络导向的随机森 - 基于决策树抽样的特征重要性测量
我们提出了一种用于树模型的特征重要性测量的基于 SAT 的 DT-Sampler 方法,该方法在真实世界的问题中具有较少的参数,提供了更高的可解释性和稳定性。
- 击键动态用于用户识别
使用基于图像的复杂特征和多分类卷积神经网络,在能够识别 148 个用户的数据集上取得了 0.78 的准确性;然而,将同一特征的稍作修改后,使用随机森林分类器则可以获得 0.93 的准确性。
- 基于随机森林保几何性质的监督流形学习
本文提出使用随机森林的数据几何保证变体作为流形学习方法的初始化,以实现具有意义的嵌入,并证明了使用这些相似度保持能够几乎适用于各种流形学习方法并且能够正确地维护全局结构。
- 朴素贝叶斯和随机森林在软件缺陷预测中的元分析比较
本研究通过系统文献综述和元分析的方法,发现在预测软件缺陷方面,朴素贝叶斯和随机森林模型在召回率、F - 度量和精确度方面没有显著差异。
- 野外 RGB 图像中风力发电机叶片的稳健分割
为实现风力涡轮机的结构健康监测,我们提出了一种新型分割算法,它利用已知数据填补空洞,使用组合损失函数加正则化项,并通过随机森林消除错误分类,最终实现了高达 97.39% 的准确率。
- 基于预防性维护的光伏系统故障检测和分类
利用随机森林算法提取和选择特征以检测光伏系统中的细微故障,以提高故障分类的精度和计算效率。
- 使用 Kubernetes 集群日志自动化微服务测试失败分析
本研究旨在识别有效和高效的分类算法以自动确定 Kubernetes 容器编排系统集群日志的故障原因,结果显示,使用随机森林算法可以实现较高准确性并需要更少的计算资源。
- RF + 聚类模型在留一验证中的性能敏感度分析
本研究提出了一种改进的 RF + clust 方法,通过调整基于距离的权重与回归模型的特征相关性来解决 LOPO 问题,并在 CEC 2014 基准套件上实验证明了其优越性。