人类基因核苷酸序列的生成式语言模型
通过使用核苷酸序列语言模型和基于 PubMed 文章的文本语言模型,我们提出了一种细调核苷酸序列语言模型和文本语言模型的方法,以及一种 LLM 基础上的数据增强技术和有效结合两个模型的集成方法。我们还提出了一种用于评估模型的基准,在药物抗性类别预测中,我们的方法表现出比核苷酸序列语言模型更好的性能。
Jan, 2024
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
基因组序列是指导细胞过程的蓝图,该研究介绍了一种基于人类基因组的 DNA 语言模型评估方法 BEND,该模型能够在某些任务上接近专家方法的性能,但仅能捕获关于长程特征的有限信息。
Nov, 2023
该论文提出了一种新的训练自由的文本检测策略,称为 Divergent N-Gram Analysis(DNA-GPT),通过 N-gram 分析或概率分歧分析比较人类写作和机器生成文本之间的差异,证明了其在区分人类和大型语言模型生成的文本方面具有优越性,并提供合理的解释和证据来支持这一观点,这是一种独特的可解释性检测方法。
May, 2023
HyenaDNA 是一个在人类参考基因组上进行预训练的基因组基础模型,具有长达 100 万个单核苷酸的上下文长度和单核苷酸层面的全局上下文,以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力,并在核苷酸转换器和基因组基准测试中达到了最先进的水平。
Jun, 2023
聊天 GPT 3.5-turbo 模型通过细调学习 DNA 的结构生物物理学,展示了一个具备集成各种实验数据并产生可验证假设的 AI 科学家工具的潜力。
Mar, 2024
SeqGPT 是一种增强的双语模型,专门用于开放领域自然语言理解,通过两个原子任务来表达所有的 NLU 任务并进行指令微调和深度微调,展示了良好的分类和抽取能力,可在未见领域上执行语言理解任务。
Aug, 2023
本文提出了三种生成神经网络方法,用于生成 DNA 序列,并调整其具有期望的性质。这些工具捕捉到数据的重要结构,并在设计蛋白质结合微阵列探针时,生成具有超越训练数据的性能的新序列。我们相信这些结果为将深层生成模型应用于推进基因组学研究开辟了新的空间。
Dec, 2017
提出了一种新的掩码算法 GeneMask,用于基因序列的掩码语言模型训练,该模型在四个基准基因序列分类数据集的五个少样本设置中明显优于当前最先进模型 DNABert 和 LOGO,同时训练时间不到原始模型的十分之一。
Jul, 2023
基于转换器架构的大型语言模型(LLMs)在基因组学中扮演了转变性的角色。本文旨在成为对基因组数据感兴趣的计算生物学家和计算机科学家的指南,同时也希望为生物学家们介绍和讨论我们将来如何分析基因组数据的基本转变。
Nov, 2023