单细胞 RNA-seq 合成与潜在扩散模型
本研究使用 scDiffusion 模型基于扩散过程生成具有可控条件的高质量单细胞 RNA 测序数据,并展示其能够产生接近真实数据的单细胞基因表达数据,超过现有模型在多个度量指标上的性能,对罕见细胞类型等特定细胞类型进行条件生成,并通过梯度插值生成小鼠胚胎细胞的连续发育轨迹,以此证明 scDiffusion 是增强真实 scRNA-seq 数据和深入研究细胞命运的强大工具。
Jan, 2024
利用单细胞 RNA 测序 (scRNA-seq) 技术,该研究介绍了一种基于生成式方法 (scRDiT) 的神经网络模型,能够重现具有相似统计特性的虚拟 scRNA-seq 数据集,实验证明其优越性能。
Apr, 2024
本研究提出了一种名为 Cluster-aware Iterative Contrastive Learning (CICL) 的新方法,用于单细胞 RNA 测序 (scRNA-seq) 数据聚类,通过迭代表示学习和聚类框架逐步学习 scRNA-seq 数据的聚类结构,取得了较好的聚类结果。
Dec, 2023
提出了一种针对单细胞 RNA 测序随机解释基因表达水平的概率模型,其利用低维潜在表示、额外潜在变量和神经网络进行条件分布的建模,并利用方差推断和随机优化来拟合数据。此推断过程适用于 100 万个细胞以上的数据,且优于 ZIFA 和 ZINB-WaVE 方法。作者还将该框架扩展到批次效应和其他混淆因素,并提出了一种超越 DESeq2 方法的 Bayesian 假设检验,以分析基因差异表达。
Sep, 2017
通过深度生成模型,特别是深度扩散模型,来合成 DNA 序列在合成生物学领域开辟了新的前景。我们提出了一种新颖的潜在扩散模型 (DiscDiff),通过将离散 DNA 序列嵌入连续的潜在空间,使用自编码器来利用连续扩散模型强大的生成能力生成离散数据。此外,我们引入了一种新的度量标准 Frechet Reconstruction Distance (FReD),用于衡量 DNA 序列生成结果的样本质量。我们的 DiscDiff 模型能够生成与真实 DNA 序列在 Motif 分布、潜在嵌入分布 (FReD) 和染色质剖面方面紧密相符的合成 DNA 序列。此外,我们还贡献了一个包含 15 个物种的 15 万个唯一启动子 - 基因序列的全面跨物种数据集,为未来基因组学中的生成建模工作提供丰富的资源。我们将在发表后公开我们的代码。
Oct, 2023
该论文引入了一种用于 DNA 序列生成的新型框架,包括 DiscDiff,一种专门用于生成离散 DNA 序列的潜在扩散模型(LDM),和 Absorb-Escape,一种后期训练算法,用于优化这些序列。Absorb-Escape 通过纠正潜在和输入空间之间转换过程中固有的 ' 舍入误差 ' 来增强生成序列的真实性。我们的方法不仅在 DNA 序列生成方面树立了新的标准,而且在生成短 DNA 序列和长 DNA 序列方面表现出了优越性能。此外,我们还推出了 EPD-GenDNA,这是第一个综合性的多物种 DNA 生成数据集,包含来自 15 种物种的 160,000 个独特序列。我们希望这项研究能推动 DNA 的生成建模,对基因治疗和蛋白质生产可能产生影响。
Feb, 2024
通过引入一种新的,临界阻尼 Langevin 扩散,该文提出一种基于分数的生成模型框架,它可以更轻松地学习条件分布的速度得分函数,这比直接学习数据分数函数要容易得多,并用于高分辨率图像合成任务。
Dec, 2021
该研究探讨了如何训练和适应大型语言模型,以解释和区分单细胞 RNA 测序数据中的细胞类型,初步研究结果表明这些基础模型在准确分类已知细胞类型方面表现出色,展示了大型语言模型作为发现新生物学见解的有效工具的潜力。
Feb, 2024
本文提出了一种基于深度生成模型 gimVI 的方法,用于整合空间转录组学和单细胞 RNA 测序数据以推断空间转录组学数据中缺失的基因表达信息并比较了其与其他方法的性能。
May, 2019