我们提出了一种疾病特异性的蛋白质语言模型 ProPath,通过孪生网络捕捉罕见错义变异的伪对数似然比,从而解决了临床基因变异的分类问题,并在家族性心肌病和心律失常的临床变异集中取得了最好的性能表现。
Nov, 2023
本文研究使用 VGAE 和 C-VGAE 作为无监督的方法,利用图神经网络进行疾病 - 基因关联网络的潜在嵌入表示,进而解决疾病 - 基因预测问题,结果表明 VGAE 和 C-VGAE 方法具有很好的性能
Jul, 2019
本文针对生物医学科学文献中的命名实体识别问题,尤其是基因组变异识别问题,提出了一种先进的端到端深度学习算法,实现了通用命名实体识别算法与低资源应用之间的桥梁,不需要手工特征工程或后处理规则,可望在低资源命名实体识别应用领域取得有希望的性能。
Jun, 2020
本文提出了一种利用动态模式和生成模型的方法 (DyGen),用于在 fine-tuning 语言模型时应对带有噪声标签的问题,并显示出与现有方法比平均准确性提高了 3.10%(在两个合成噪声数据集上)和 1.48%(在三个实际噪声数据集上)的改进。
May, 2023
本文探讨了基因组关联研究中的线性模型与深度网络模型的优缺点,并提出了一种基于 DeepLIFT 技术的方法,可以识别出已知和可能的糖尿病遗传风险因素。
Jul, 2020
提出了一种基于深度学习的模型 DeepSequence,可以预测基因突变对分子属性的影响,具有非线性的高阶约束,是一种能够应用于有关蛋白质和 RNA 相互作用的普适模型。
Dec, 2017
通过引入轻量化图形表示学习方案,本研究建议一种有效分析野生型蛋白质微环境、推荐实用高阶突变,并使用有限的计算资源和少量的突变训练样本进行推断模型的连续改进的方法,从而准确预测蛋白质功能和变异效应。
Apr, 2023
使用高维临床数据和变分自编码器 (VAE) 学习的低维嵌入可用于基因组关联研究和多基因风险预测,而在基因关联研究中,FactorVAE 和 beta-VAE 相较于标准 VAE 或非变分自编码器在哮喘和慢性阻塞性肺疾病的全基因组显著位点数量、遗传度和多基因风险评分的性能上表现更好,而且 FactorVAE 在正则化超参数的多个值上效果显著,而 beta-VAE 对超参数的值非常敏感。
Jul, 2023
本文利用长期医疗索赔数据并引入生成对抗网络和递归神经网络,成功实现了对罕见疾病 —— 外分泌胰腺功能不全的患者的准确预测,PR-AUC 标准为 0.56。
引入了 VQDNA,一个从基因词汇学习的角度改进基因标记化的通用框架;通过利用可学习的词汇的向量量化码书,VQDNA 可以自适应地将基因标记化为具有模式感知的嵌入结果;通过在层次结构中设计不同尺度的码书,提出了层次残差量化方法(HRQ)。在 32 个基因数据集上的广泛实验表明,与现有的基因语言模型相比,VQDNA 具有卓越的性能和有利的参数效率。值得注意的是,对 SARS-CoV-2 突变的经验分析揭示了学习 HRQ 词汇的细粒度模式感知和生物学意义,突显了其在基因组学中更广泛应用的潜力。
May, 2024