人类基因核苷酸序列的生成式语言模型

Jul, 2023

人类基因核苷酸序列的生成式语言模型

Generative Language Models on Nucleotide Sequences of Human Genes

Musa Nuri Ihtiyar, Arzucan Ozgur

TL;DR开发类似 GPT-3 的自回归生成语言模型用于 DNA 序列，研究了 RNNs 和 N-grams 在处理人类基因中的核苷酸序列时的表现以及选择具有最小词汇量的语言对数据需求的影响。

Abstract

language models, primarily transformer-based ones, obtained colossal success in NLP. To be more precise, studies like BERT in NLU and works such as GPT-3 for NLG are very crucial. →

language models transformer-based dna sequences autoregressive generative language model nucleotide sequences

发现论文，激发创造

利用大型语言模型预测抗菌性能

通过使用核苷酸序列语言模型和基于 PubMed 文章的文本语言模型，我们提出了一种细调核苷酸序列语言模型和文本语言模型的方法，以及一种 LLM 基础上的数据增强技术和有效结合两个模型的集成方法。我们还提出了一种用于评估模型的基准，在药物抗性类别预测中，我们的方法表现出比核苷酸序列语言模型更好的性能。

Jan, 2024

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

BEND：对 DNA 语言模型在有生物学意义的任务上进行基准测试

基因组序列是指导细胞过程的蓝图，该研究介绍了一种基于人类基因组的 DNA 语言模型评估方法 BEND，该模型能够在某些任务上接近专家方法的性能，但仅能捕获关于长程特征的有限信息。

Nov, 2023

DNA-GPT: 基于差异化 N-Gram 分析的无需训练 GPT 生成文本检测

该论文提出了一种新的训练自由的文本检测策略，称为 Divergent N-Gram Analysis（DNA-GPT），通过 N-gram 分析或概率分歧分析比较人类写作和机器生成文本之间的差异，证明了其在区分人类和大型语言模型生成的文本方面具有优越性，并提供合理的解释和证据来支持这一观点，这是一种独特的可解释性检测方法。

May, 2023

HyenaDNA：基于单核苷酸的远距离基因组序列建模

HyenaDNA 是一个在人类参考基因组上进行预训练的基因组基础模型，具有长达 100 万个单核苷酸的上下文长度和单核苷酸层面的全局上下文，以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力，并在核苷酸转换器和基因组基准测试中达到了最先进的水平。

Jun, 2023

利用思维链和 LLMs 学习 DNA 结构生物物理学

聊天 GPT 3.5-turbo 模型通过细调学习 DNA 的结构生物物理学，展示了一个具备集成各种实验数据并产生可验证假设的 AI 科学家工具的潜力。

Mar, 2024

SeqGPT：一个开箱即用的开放领域序列理解大语言模型

SeqGPT 是一种增强的双语模型，专门用于开放领域自然语言理解，通过两个原子任务来表达所有的 NLU 任务并进行指令微调和深度微调，展示了良好的分类和抽取能力，可在未见领域上执行语言理解任务。

Aug, 2023

使用深度生成模型生成和设计 DNA

本文提出了三种生成神经网络方法，用于生成 DNA 序列，并调整其具有期望的性质。这些工具捕捉到数据的重要结构，并在设计蛋白质结合微阵列探针时，生成具有超越训练数据的性能的新序列。我们相信这些结果为将深层生成模型应用于推进基因组学研究开辟了新的空间。

Dec, 2017

GeneMask：基因序列的快速预训练以实现少样本学习

提出了一种新的掩码算法 GeneMask，用于基因序列的掩码语言模型训练，该模型在四个基准基因序列分类数据集的五个少样本设置中明显优于当前最先进模型 DNABert 和 LOGO，同时训练时间不到原始模型的十分之一。

Jul, 2023

转型与超越：用于基因组的大型语言模型

基于转换器架构的大型语言模型（LLMs）在基因组学中扮演了转变性的角色。本文旨在成为对基因组数据感兴趣的计算生物学家和计算机科学家的指南，同时也希望为生物学家们介绍和讨论我们将来如何分析基因组数据的基本转变。

Nov, 2023