预测基因突变的功能丧失影响:一种机器学习方法
该研究提出了一种新的方法,利用多项逻辑回归、非平滑非负矩阵分解 (nsNMF) 和支持向量机 (SVM) 等算法,从全序列数据中提取遗传信息以更好地预测癌症类型。实验表明,该方法在突变计数、突变得分等方面均表现优异,可用于其他疾病分类和通路发现研究。
Sep, 2018
本文提出了一种利用自编码器和可解释的基于人工智能的评分来进行特征选择的算法,可用于诊断、预后和精准医疗。该算法在慢性淋巴细胞白血病数据集上应用,能够确定一组有意义的基因,供进一步医学研究参考。
Mar, 2023
提出了一种基于深度学习的模型 DeepSequence,可以预测基因突变对分子属性的影响,具有非线性的高阶约束,是一种能够应用于有关蛋白质和 RNA 相互作用的普适模型。
Dec, 2017
通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查,发现在回归任务中,异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战;而分类任务中,类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例,但其发现可推广到任何类似数据集。
Feb, 2024
通过研究在蛋白质或有机小分子等易突变的离散组合空间中训练的机器学习(ML)模型的数据误差缩放行为的趋势,我们发现了学习过程中出现的不连续的单调阶跃现象,其表现为特定训练数据阈值时测试误差的快速下降。我们发现了饱和和渐近衰减两种学习模式,并发现它们取决于训练集中含有的突变复杂性水平(即突变数量)。本研究对于在可突变离散空间中的机器学习,如化学性质或蛋白质表型预测,并改善基本统计学习理论的理解具有重要意义。
May, 2024
机器学习模型在表达基因数据的表型分类方面取得了好的性能,通过提取决策的解释,这些模型能提供对表型的理解,讨论了这种解释的生物学和方法论限制,并在癌症和健康组织样本的多个数据库上进行了实验。
Feb, 2024
从全幻灯图像中预测基因突变对于癌症诊断至关重要。本研究设计了一种生物知识增强的 PathGenomic 多标签 Transformer,通过构建基因优先级和基因突变预测模块,提高了预测性能,实验证明该方法优于现有最先进技术。
Jun, 2024
使用支持向量机和卷积神经网络两种机器学习模型,对文献进行分类并成功地实现对遗传突变与癌症风险及种群遗传变异的相关性进行预测,并提供新的临床决策支持工具。
Apr, 2019
本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性,并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明,针对特定嵌入方法,某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒(且准确)。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型,并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。
Jul, 2022