预测基因突变的功能丧失影响：一种机器学习方法

Jan, 2024

预测基因突变的功能丧失影响：一种机器学习方法

Predicting loss-of-function impact of genetic mutations: a machine learning approach

Arshmeet Kaur, Morteza Sarmadi

TL;DR本文研究了利用下一代测序技术进行基因组测序以及使用机器学习模型预测 LoFtool 分数和基因突变的相关特性，通过建立多个模型并评估其性能，得到了测试集 r 平方值为 0.97 的结果。

Abstract

The innovation of next-generation sequencing (NGS) techniques has significantly reduced the price of genome sequencing, lowering barriers to future medical research; it is now feasible to apply →

next-generation sequencing genome sequencing machine learning models loftool scores gene mutations

发现论文，激发创造

使用非负矩阵分解进行癌症分类及通路发现

该研究提出了一种新的方法，利用多项逻辑回归、非平滑非负矩阵分解 (nsNMF) 和支持向量机 (SVM) 等算法，从全序列数据中提取遗传信息以更好地预测癌症类型。实验表明，该方法在突变计数、突变得分等方面均表现优异，可用于其他疾病分类和通路发现研究。

Sep, 2018

基于深度学习与可解释人工智能的基因组特征选择新算法

本文提出了一种利用自编码器和可解释的基于人工智能的评分来进行特征选择的算法，可用于诊断、预后和精准医疗。该算法在慢性淋巴细胞白血病数据集上应用，能够确定一组有意义的基因，供进一步医学研究参考。

Mar, 2023

深度生成模型捕捉突变效应的遗传变异

提出了一种基于深度学习的模型 DeepSequence，可以预测基因突变对分子属性的影响，具有非线性的高阶约束，是一种能够应用于有关蛋白质和 RNA 相互作用的普适模型。

Dec, 2017

基于深度学习模型的模糊基因选择和癌症分类

通过应用模糊基因选择技术，本研究提出了一个新的肿瘤分类模型，优于标准 MLP 方法，并在生物医学科学领域中提高了基因表达数据的分类准确性。

May, 2023

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查，发现在回归任务中，异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战；而分类任务中，类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例，但其发现可推广到任何类似数据集。

Feb, 2024

自然离散组合突变易导致数据误差的机器学习中的数据规模缩放：以肽和小分子为案例研究

通过研究在蛋白质或有机小分子等易突变的离散组合空间中训练的机器学习（ML）模型的数据误差缩放行为的趋势，我们发现了学习过程中出现的不连续的单调阶跃现象，其表现为特定训练数据阈值时测试误差的快速下降。我们发现了饱和和渐近衰减两种学习模式，并发现它们取决于训练集中含有的突变复杂性水平（即突变数量）。本研究对于在可突变离散空间中的机器学习，如化学性质或蛋白质表型预测，并改善基本统计学习理论的理解具有重要意义。

May, 2024

基于统计和机器学习方法的基因表达谱分析的比较分析

机器学习模型在表达基因数据的表型分类方面取得了好的性能，通过提取决策的解释，这些模型能提供对表型的理解，讨论了这种解释的生物学和方法论限制，并在癌症和健康组织样本的多个数据库上进行了实验。

Feb, 2024

通过生物医学 - 语言知识增强的多标签分类预测基因突变从全切片图像中

从全幻灯图像中预测基因突变对于癌症诊断至关重要。本研究设计了一种生物知识增强的 PathGenomic 多标签 Transformer，通过构建基因优先级和基因突变预测模块，提高了预测性能，实验证明该方法优于现有最先进技术。

Jun, 2024

利用机器学习和自然语言处理来审查和分类癌症易感基因相关医学文献

使用支持向量机和卷积神经网络两种机器学习模型，对文献进行分类并成功地实现对遗传突变与癌症风险及种群遗传变异的相关性进行预测，并提供新的临床决策支持工具。

Apr, 2019

基于机器学习的 Covid-19 基因组序列分类鲁棒性基准测试

本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性，并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明，针对特定嵌入方法，某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒（且准确）。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型，并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。

Jul, 2022