VADA:基于数据驱动的纳米孔测序模拟器
ViDa 是一种新方法,用于在二级结构的能量景观上可视化 DNA 反应的折叠轨迹,通过将高维数据映射到二维欧几里德空间,成功区分具有不同折叠机制的轨迹,提供有用的洞察力,并且在 DNA 动力学可视化方面是一种巨大的改进。
Nov, 2023
ViDa 是一种新的 DNA 反应轨迹可视化方法,通过二维嵌入连续时间马尔可夫链模型下的次级结构状态空间,结合散射变换、变分自动编码器和非线性降维方法,增强域特定的监督术语捕捉热力学和动力学特征,明显提高 DNA 状态空间可视化的质量,成功区分不同的折叠途径,从而为主要反应机制提供有用的见解。
Nov, 2023
本文利用一种序列到序列自编码器模型以无监督的方式学习长度可变的 DNA 序列的固定维度的潜在表示,并在监督学习的拼接位点分类任务中进行了定量和定性评估。实验表明,此类表示法可用作通常相关的任务中的特征或先验,并且采用的模型归因技术获得的序列特征对分类精度有显著影响。
Jun, 2019
本文介绍一种新的方法,即同时为每个变量的可能排序训练 NADE 模型,共享跨所有模型的参数。这种方法既可以为不同推理任务使用最方便的模型,又可以马上使用具有不同排序的模型集成。此外,我们的训练方法可以扩展到深度模型,实验证明深度 NADE 模型的集合可以获得最先进的密度估计性能。
Oct, 2013
通过深度生成模型,特别是深度扩散模型,来合成 DNA 序列在合成生物学领域开辟了新的前景。我们提出了一种新颖的潜在扩散模型 (DiscDiff),通过将离散 DNA 序列嵌入连续的潜在空间,使用自编码器来利用连续扩散模型强大的生成能力生成离散数据。此外,我们引入了一种新的度量标准 Frechet Reconstruction Distance (FReD),用于衡量 DNA 序列生成结果的样本质量。我们的 DiscDiff 模型能够生成与真实 DNA 序列在 Motif 分布、潜在嵌入分布 (FReD) 和染色质剖面方面紧密相符的合成 DNA 序列。此外,我们还贡献了一个包含 15 个物种的 15 万个唯一启动子 - 基因序列的全面跨物种数据集,为未来基因组学中的生成建模工作提供丰富的资源。我们将在发表后公开我们的代码。
Oct, 2023
使用时间滞后变分自编码器(VDE)对复杂的非线性蛋白质折叠等过程进行降维,并通过 saliency mapping 方法分析 VDE 所选择的用来描述动态过程的特征。
Nov, 2017
本文提出了一种 EHR 变分自动编码器 (EVA),用于合成离散 EHR 的序列和特征,证明了 EVA 可以产生逼真的 EHR 序列,并且可以根据特定的疾病条件进行条件编码,从而实现特定疾病的研究。使用 250,000 多个真实 EHR 存储库评估了该方法的实用性,在知识渊博的临床医生的实验中表明所生成的 EHR 序列是逼真的,将真实数据和合成的 EHR 相结合可能会提高最佳基线的预测性能高达 8%。
Dec, 2020
引入了 VQDNA,一个从基因词汇学习的角度改进基因标记化的通用框架;通过利用可学习的词汇的向量量化码书,VQDNA 可以自适应地将基因标记化为具有模式感知的嵌入结果;通过在层次结构中设计不同尺度的码书,提出了层次残差量化方法(HRQ)。在 32 个基因数据集上的广泛实验表明,与现有的基因语言模型相比,VQDNA 具有卓越的性能和有利的参数效率。值得注意的是,对 SARS-CoV-2 突变的经验分析揭示了学习 HRQ 词汇的细粒度模式感知和生物学意义,突显了其在基因组学中更广泛应用的潜力。
May, 2024
本文提出了一种适用于分子结构的、特别设计了多项技术创新的变分自编码器,并发展了一个梯度优化算法用于优化其生成分子的能力,实验结果表明该模型比多种现有模型更能够有效地发现合理、多样且新颖的分子。
Feb, 2018