DYNA：用于变异致病性的疾病特定语言模型

May, 2024

DYNA：用于变异致病性的疾病特定语言模型

DYNA: Disease-Specific Language Model for Variant Pathogenicity

Huixin Zhan, Zijun Zhang

TL;DR通过提出 DYNA 方法，通过 Siamese 神经网络针对所有基因组学基础模型进行疾病特异性微调，从而提高了变异效应预测的准确性，这对疾病关联和临床适用性具有重要价值。

Abstract

clinical variant classification of pathogenic versus benign genetic variants remains a challenge in clinical genetics. Recently, the proposition of genomic foundation models has improved the generic variant effect predi

clinical variant classification genomic foundation models variant effect prediction dyna disease-specific

发现论文，激发创造

ProPath：变异致病性的疾病特异性蛋白质语言模型

我们提出了一种疾病特异性的蛋白质语言模型 ProPath，通过孪生网络捕捉罕见错义变异的伪对数似然比，从而解决了临床基因变异的分类问题，并在家族性心肌病和心律失常的临床变异集中取得了最好的性能表现。

Nov, 2023

基于图神经网络的概率生成模型在疾病基因预测中的应用

本文研究使用 VGAE 和 C-VGAE 作为无监督的方法，利用图神经网络进行疾病 - 基因关联网络的潜在嵌入表示，进而解决疾病 - 基因预测问题，结果表明 VGAE 和 C-VGAE 方法具有很好的性能

Jul, 2019

DeepVar：一个端到端的深度学习方法，用于生物医学文献中基因组变异的识别

本文针对生物医学科学文献中的命名实体识别问题，尤其是基因组变异识别问题，提出了一种先进的端到端深度学习算法，实现了通用命名实体识别算法与低资源应用之间的桥梁，不需要手工特征工程或后处理规则，可望在低资源命名实体识别应用领域取得有希望的性能。

Jun, 2020

DyGen: 通过动力增强生成建模从噪声标签学习

本文提出了一种利用动态模式和生成模型的方法 (DyGen)，用于在 fine-tuning 语言模型时应对带有噪声标签的问题，并显示出与现有方法比平均准确性提高了 3.10%（在两个合成噪声数据集上）和 1.48%（在三个实际噪声数据集上）的改进。

May, 2023

GWAS 的深度可解释性

本文探讨了基因组关联研究中的线性模型与深度网络模型的优缺点，并提出了一种基于 DeepLIFT 技术的方法，可以识别出已知和可能的糖尿病遗传风险因素。

Jul, 2020

深度生成模型捕捉突变效应的遗传变异

提出了一种基于深度学习的模型 DeepSequence，可以预测基因突变对分子属性的影响，具有非线性的高阶约束，是一种能够应用于有关蛋白质和 RNA 相互作用的普适模型。

Dec, 2017

使用轻量级等变图神经网络准确预测突变效应

通过引入轻量化图形表示学习方案，本研究建议一种有效分析野生型蛋白质微环境、推荐实用高阶突变，并使用有限的计算资源和少量的突变训练样本进行推断模型的连续改进的方法，从而准确预测蛋白质功能和变异效应。

Apr, 2023

评估无监督解缠表示学习用于基因组发现和疾病风险预测

使用高维临床数据和变分自编码器 (VAE) 学习的低维嵌入可用于基因组关联研究和多基因风险预测，而在基因关联研究中，FactorVAE 和 beta-VAE 相较于标准 VAE 或非变分自编码器在哮喘和慢性阻塞性肺疾病的全基因组显著位点数量、遗传度和多基因风险评分的性能上表现更好，而且 FactorVAE 在正则化超参数的多个值上效果显著，而 beta-VAE 对超参数的值非常敏感。

Jul, 2023

使用生成对抗网络进行序列建模的罕见疾病检测

本文利用长期医疗索赔数据并引入生成对抗网络和递归神经网络，成功实现了对罕见疾病 —— 外分泌胰腺功能不全的患者的准确预测，PR-AUC 标准为 0.56。

Jul, 2019

VQDNA: 多物种基因组序列建模的向量量化能力释放

引入了 VQDNA，一个从基因词汇学习的角度改进基因标记化的通用框架；通过利用可学习的词汇的向量量化码书，VQDNA 可以自适应地将基因标记化为具有模式感知的嵌入结果；通过在层次结构中设计不同尺度的码书，提出了层次残差量化方法（HRQ）。在 32 个基因数据集上的广泛实验表明，与现有的基因语言模型相比，VQDNA 具有卓越的性能和有利的参数效率。值得注意的是，对 SARS-CoV-2 突变的经验分析揭示了学习 HRQ 词汇的细粒度模式感知和生物学意义，突显了其在基因组学中更广泛应用的潜力。

May, 2024