结直肠癌风险预测模型特征选择的比较研究

Feb, 2024

结直肠癌风险预测模型特征选择的比较研究

A comparative study on feature selection for a risk prediction model for colorectal cancer

N. Cueto-López, M. T. García-Ordás, V. Dávila-Batista, V. Moreno, N. Aragonés...

TL;DR针对结直肠癌，评估了多种特征排序算法在一组风险预测模型中的性能，通过标量稳定性度量和一种可视化方法评估其稳定性，与专家提供的特征进行了比较分析，并发现了与专家知识相一致的最相关特征。

Abstract

Background and objective risk prediction models aim at identifying people at higher risk of developing a target disease. feature selection is particularly important to improve the prediction model →

risk prediction models feature selection colorectal cancer performance feature ranking algorithms

发现论文，激发创造

乳腺癌风险因素分析和生存预测的监督式机器学习

利用机器学习方法，比较逻辑回归、支持向量机、决策树、随机森林、极端随机树、最近邻算法和自适应增强等七种分类模型来预测基于 METABRIC 数据集中 1904 名患者记录的 5 年乳腺癌生存率。研究结果表明，这些分类器可以准确预测样品的生存率，分别为 75.4％，74.7％，71.5％，75.5％，70.3％和 78％

Apr, 2023

基于混合抽样方法和基于树的分类器的失衡结直肠癌数据集的存活预测

通过使用临床数据集，该研究论文着重于开发预测结直肠癌患者 1 年、3 年和 5 年生存率的算法，特别关注高度不平衡的 1 年生存率预测任务，使用多种标准平衡技术创建一种方法以提高真阳性率，从而显著提高了少数类结直肠癌患者的死亡预测能力。

Sep, 2023

高级胃肠神经内分泌肿瘤患者生存情况的探究：集成特征选择在总生存预测中的应用

该研究比较了使用 REPT 和 UBayFS 这两种特征选择算法，基于临床文献的专家知识和数据驱动的实验来确定最稳定和预测的高等级肠胃胰神经内分泌肿瘤病人特征集，并发现对特征进行专家知识的引导能够提高特征集的稳定性，但对预测性能的影响有限。

Feb, 2023

特征选择方法对分子标志物准确性、稳定性和可解释性的影响

该研究对多种特征选择方法在乳腺癌预后方面的预测性能、稳定性和功能可解释性进行了比较，发现简单的过滤方法通常优于复杂的嵌入或包装方法，集成特征选择通常没有积极影响，最终得出平均而言简单的 Student's t-test 提供了最佳结果。

Jan, 2011

使用梯度提升方法开发和外部验证的肺癌风险评估工具

通过机器学习工具，结合肺癌风险因素和临床数据，本研究旨在提供一个估计五年内肺癌发生可能性的自由可用网络应用，以促进早期发现和预防策略，降低肺癌相关死亡率。

Aug, 2023

应用监督学习算法和新的特征选择方法预测冠状动脉疾病

本文利用 DNA 位点级别上所采集的单核苷酸多态性（SNPs）数据，从数据科学的视角探讨了冠状动脉疾病的预测。研究中介绍了两种常用的监督学习算法和二维降维技术，分别进行了误差比较分析，结果表明新方法随机森林预测模型的准确率和 ROC 曲线的面积都比传统方法更优。

Feb, 2014

分而治之：自我监督学习在结直肠癌生存分析中的应用

本研究旨在通过自我监督学习方法，学习肿瘤组织内的组织病理模式，以优化结直肠癌的预后分层，并通过新的数据集、患者预后模型和实验证明了其效果优于现有深度聚类方法。

Jul, 2020

支持向量机的成本敏感特征选择

通过数学优化的特征选择过程嵌入到支持向量机分类过程中，结合了不对称的分类错误代价，旨在减少特征数量并保持误分类率的平衡。

Jan, 2024

乳腺癌检测：基于机器学习算法的威斯康星州诊断数据集应用

本文在威斯康星州诊断性乳腺癌数据集上比较了六个机器学习算法的分类测试准确性，并测量了它们的灵敏度和特异性。实验结果表明，所有的算法都表现良好，并超过了 90% 的测试准确率，其中 MLP 算法表现最佳，测试准确率高达 99.04%。

Nov, 2017

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查，发现在回归任务中，异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战；而分类任务中，类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例，但其发现可推广到任何类似数据集。

Feb, 2024