基于癌症启发的基因组编图模型生成具有所需基因组特征的合成 DNA 序列
本文提出了三种生成神经网络方法,用于生成 DNA 序列,并调整其具有期望的性质。这些工具捕捉到数据的重要结构,并在设计蛋白质结合微阵列探针时,生成具有超越训练数据的性能的新序列。我们相信这些结果为将深层生成模型应用于推进基因组学研究开辟了新的空间。
Dec, 2017
通过 Deep Genetic Molecular Modification Algorithm (DGMM),将结构修饰引入药物化学家的水平,该算法利用离散变分自动编码器 (D-VAE) 将分子编码为量化编码 mol-gene,将深度学习与遗传算法相结合,用于灵活结构优化,以发现药理学上相似但在结构上有所区别的化合物并揭示药物发现中结构优化的权衡。我们在几个应用中验证了 DGMM 的有效性。
Jun, 2024
医学成像是诊断和治疗疾病的重要工具,缺乏医学图像可能导致不准确的诊断和无效的治疗。生成模型通过从现有数据集中生成新数据并检测其中的异常来解决医学图像短缺问题。本文提出了 GAN-GA,一种通过嵌入遗传算法进行优化的生成模型。该模型在保留独特特征的同时提高了图像的保真度和多样性。该方法改进了医学图像的质量和保真度,是图像解释的重要方面。通过使用 Frechet Inception Distance(FID)来评估合成图像,将 GAN-GA 模型应用于生成急性淋巴细胞白血病(ALL)医学图像。实验结果表明,所提出的优化 GAN-GA 在 FID 得分上提高了约 6.8%,特别是在前期训练阶段。源代码和数据集可在此 URL 找到。
Dec, 2023
本文提出了一种通过将表型,环境和行为数据与基因组数据整合的流程,使用一种概率图模型来理解数据中特征之间的关系,并展示了该流程如何改善乳腺癌预测模型,提供一种生物学可解释性的视图。
May, 2020
本研究利用图嵌入模型(即 VGAE)对组织特异性基因基因相互作用网络进行链接预测。经过消融实验,我们证明了多个生物模态(即多组学)的组合会导致更强大的嵌入并提高链接预测性能。我们的结果表明,基因甲基化和 RNA 测序数据的整合显着提高了链接预测性能。总体而言,RNA 测序和基因甲基化数据的组合使得基因基因相互作用网络上的链接预测准确率达到了 71%。本研究通过对多组学数据的图表示学习,为当前有关生物信息学中多组学整合研究带来了新的见解。
Jul, 2021
癌症是由基因组变异驱动的复杂疾病,肿瘤测序成为癌症患者临床护理的核心,多机构测序数据的出现为增强精准肿瘤学提供了有力资源。然而,利用这种多机构测序数据面临着重大挑战,包括基因面板的差异导致常见基因集上信息的丢失,测序技术和机构间患者异质性的差异增加了复杂性,高数据维度、稀疏基因突变模式和个体基因水平的弱信号进一步复杂化了情况。为了克服这些实际挑战,我们介绍了 Bridge 模型,它采用分位匹配的潜变量方法来获得整合特征,以保留超出常见基因之外的信息,并最大限度地利用所有可用的数据,同时利用信息共享来增强学习效率和模型的泛化能力。通过提取协调和去噪的低维潜变量,捕捉到了每个个体独特的真实突变模式。我们通过广泛的模拟研究评估了模型的性能和参数估计,从 Bridge 模型中提取的潜变量特征在 GENIE BPC 数据中始终表现出色,可以预测六种癌症类型中的患者生存情况。
Jan, 2024
该研究提出了多组学数据集成的一种新方法,称为 SDGCCA。SDGCCA 能够建模非线性多种组学流形之间的相关结构,旨在改善表型分类并揭示与表型相关的生物标志物。应用于老年痴呆症患者的预测和早期和晚期癌症的区分中,SDGCCA 表现出优异的性能,还能用于特征选取以识别重要的多组学生物标记物。在老年痴呆症数据中,SDGCCA 识别了与老年痴呆症相关的基因簇。
Apr, 2022
本文研究了利用下一代测序技术进行基因组测序以及使用机器学习模型预测 LoFtool 分数和基因突变的相关特性,通过建立多个模型并评估其性能,得到了测试集 r 平方值为 0.97 的结果。
Jan, 2024
合成致死(SL)预测用于确定两个基因的共突变是否导致细胞死亡,其中最常见的策略是将 SL 预测抽象为 SL 数据中基因节点的边分类任务,并通过图神经网络(GNNs)实现,然而,GNNs 在信息传递机制中存在一些局限性,包括过度平滑和过度压缩问题,此外,利用大规模多组学数据中非 SL 基因关系的信息来促进 SL 预测带来了非常困难的挑战,为了解决这些问题,我们提出了一种新的基于多组学采样的 SL 预测图变换器(MSGT-SL),具体地,我们引入了一个浅层多视图 GNN 来从 SL 和多组学数据中获取局部结构模式,进一步,我们将编码多视图信息的基因特征输入到标准的自注意力机制中以捕获长程依赖关系,值得注意的是,我们从 SL 数据中的批量基因开始,在包含它们的多个组学基因图之间采用并行随机游走采样,以在使用自注意力机制之前以基于结构的方式有效而适度地将组学基因纳入其中,我们展示了 MSGT-SL 在现实世界的 SL 任务上的有效性,证明了图变换器和多组学数据所带来的经验上的收益。
Oct, 2023