- Geneverse: 用于基因组学和蛋白质组学研究的开源多模态大型语言模型集合
基因组学和蛋白质组学研究中的大型语言模型(LLMs)应用前景广阔。我们提出了一种名为 Geneverse 的针对基因组学和蛋白质组学研究中三个创新任务的经过微调的 LLMs 和多模态 LLMs(MLLMs)集合。Geneverse 模型基于 - 基于知识驱动的子空间融合和梯度协调的多模态学习
通过分解组织学图像和基因组学的特征子空间,反映不同的肿瘤和微环境特征,我们提出了一种生物解释性和稳健的多模态学习框架,以高效地整合组织学图像和基因组学,从而解决了肿瘤生态系统中肿瘤和微环境共同增加恶性的内在复杂性问题。
- 统一建模增强的精准神经肿瘤多模态学习
通过使用一种层次化注意结构,我们介绍了一种统一建模增强多模态学习(UMEML)框架,该框架整合了组织学图像和基因组学,以在显微镜级别和分子级别上实现对肿瘤的精确治疗,并通过利用两种模态的共享和互补特征有效地进行建模。
- MGI: 基因组和医学影像的多模态对比预训练
提出了一种多模态预训练框架,通过整合基因组学和医学图像数据,在肿瘤分割任务中优于相关方法。
- MGCT: 基于综合组织病理学 - 基因组特征的生存结局预测的互相引导的跨模态变换器
基于深度学习的计算病理学领域的研究表明,利用全切片图像(WSIs)客观预测癌症患者预后的效果显著。然而,目前大多数预后方法局限于组织病理学或基因组学,不可避免地降低了其准确预测患者预后的潜力。为了解决这些问题,我们提出了一种弱监督、基于注意 - 转型与超越:用于基因组的大型语言模型
基于转换器架构的大型语言模型(LLMs)在基因组学中扮演了转变性的角色。本文旨在成为对基因组数据感兴趣的计算生物学家和计算机科学家的指南,同时也希望为生物学家们介绍和讨论我们将来如何分析基因组数据的基本转变。
- HyenaDNA:基于单核苷酸的远距离基因组序列建模
HyenaDNA 是一个在人类参考基因组上进行预训练的基因组基础模型,具有长达 100 万个单核苷酸的上下文长度和单核苷酸层面的全局上下文,以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力,并在核苷酸转换器和基因组基准 - DNABERT-2:多物种基因组高效基础模型和基准
此研究提出用基于统计方法的 BPE 算法替换 k-mer 作为基因组语言的标记,并基于此引入了一种高效的基因组基础模型 DNABERT-2 和包含 28 个数据集和 7 项任务的全面的多物种基因组分类数据集 GUE,该模型具有可比较的性能, - 了解乳腺癌生存:使用因果关系和语言模型分析多组学数据
本文利用因果发现算法和大型语言模型通过对 705 名乳腺癌患者的基因组信息的剖析,从多个角度研究患者存活状况的因素,表明因果发现算法和语言模型的可靠性,有助于深入挖掘临床应用上的可靠因果关系。
- GeneGPT:教导大型语言模型使用 NCBI Web APIs
本文介绍了 GeneGPT,一种利用 Web 应用程序编程接口解决基因组学问题的大型语言模型(LLMs)的新方法。在经过少量 NCBI API 调用的 URL 请求演示后,GeneGPT 能够提供具有状态良好的结果,并且优于其他一些先进的 - 强化学习技术革命基因组学
该文以综述的形式介绍了强化学习在基因组学领域中的应用,着重于基因调控网络、基因组装和序列比对等研究领域。通过提出一些新方向和探讨强化学习的局限性,该综述对当前领域的现状和未来趋势进行了总结。
- SNP2Vec: 可扩展的自监督预训练方法应用于全基因组关联分析
本文介绍了 SNP2Vec 这一自我监督的预训练方法,利用其来预测中国人群在阿尔茨海默氏病风险上的表现效果超过了其他基线模型,并且包含在此 https URL 中的数据集和代码。
- 基于深度学习的计算病理学可预测原发性未知癌症
利用基於深度學習的計算病理學算法 - TOAD 進行差異診斷,可幫助繁瑣的轉移瘤和 CUP 病例的診斷,減少 CUP 發生率。
- MAGAN: 对齐生物多样性
本文介绍了一种新的基于生成式对抗网络模型的数据集成方法:Manifold-Aligning GAN (MAGAN),并通过单细胞生物学实例表明其可行性,该方法能够成功的将两种不同的测量类型(基因组学和蛋白组学)进行对齐,从而加强其对生物信息 - ICML从多个群体估计未观察到的数据
通过对多个种群的未知分布进行观测和最优估计,创新性地解决了从一个分布样本中寻找新元素的问题,并且开发了一种有效的优化算法来估计多群体频率分布。
- ICLR学习基因表达以预测癌症临床结果
该研究利用神经网络学习基因组表示,以预测癌症患者的生存情况,并证明该方法相较现有的生存分析方法具有优势。
- ProtVec: 生物序列的连续分布式表示
介绍了一种新的生物序列表示和特征提取方法 BioVec,通过人工神经网络方法,将蛋白质序列表示为单个 n 维向量,可精确地识别蛋白质家族分类、蛋白质结构预测、无序蛋白质鉴定等各类生物信息学任务,表现优于现有方法。
- 系统发育基因组学的数学
通过高通量技术揭示了许多生物的基因组、基因的全局表达模式和种群内变异的详细信息,这使得我们第一次能够探讨基因组的演化、基因及其调控的结构,以及个体基因型和表型之间的联系,并使生命科学中新学科 Phylogenomics 迅速发展。本文的目标 - 压缩聚类
我们提出了一种基于压缩的聚类方法,使用基于长度压缩数据文件的普适相似性距离(NCD)来构建层级聚类,可以成功地应用于基因组学,病毒学,语言学,文学,音乐,手写数字,天文学以及完全不同域的对象长度压缩数据文件,并且在不同的压缩方式下具有普遍性