利用大型语言模型设计蛋白质：增强和比较分析

Aug, 2024

利用大型语言模型设计蛋白质：增强和比较分析

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

TL;DR本研究解决了在蛋白质序列生成中可用数据有限的问题，通过重新训练包括Mistral-7B、Llama-2-7B、Llama-3-8B和gemma-7B在内的预训练大型语言模型，使其能够生成生物上合理的蛋白质结构。研究结果表明，即使在仅有42,000个独特人类蛋白质序列的数据集上，这些模型的表现与使用数百万蛋白质序列训练的专业模型相当，推动了计算生物学领域的透明度和合作。

Abstract

Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llam

发现论文，激发创造

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白LM -嵌入(ProtT5)能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

ProGen2：探索蛋白质语言模型的界限

介绍了一套名为ProGen2的蛋白质语言模型，它具有64亿个参数，在来自多种数据库的超过10亿个蛋白质序列数据集上进行训练。ProGen2模型表现出捕获已观察到的进化序列分布，生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。

Jun, 2022

蛋白质语言模型与结构预测：联系与进展

本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法，介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战，并展望了未来发展方向。

Nov, 2022

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非Transformer结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

利用语言模型嵌入进行蛋白质序列生成的扩散

利用连续扩散和蛋白质语言模型ESM-2推导的嵌入，在无条件生成方面超越了当前的解决方案，进一步评估了生成的蛋白质序列的质量、多样性、分布相似性和生物相关性，并提供了一个可扩展且高质量的蛋白质序列生成框架，从而推动了蛋白质设计领域的发展。

Mar, 2024

ProtLLM：一种蛋白质与语言相互交织的蛋白质语言模型，以蛋白质作为词的预训练

我们提出了ProtLLM，这是一个通用的跨模态大语言模型，用于蛋白质中心和蛋白质语言任务。ProtLLM具有独特的动态蛋白质装配机制，能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外，我们提出了基于蛋白质作为单词的语言建模方法来训练ProtLLM。通过开发专门的蛋白质词汇表，我们使模型能够从大量候选项中预测不仅自然语言，还包括蛋白质。另外，我们构建了一个大规模的交织蛋白质-文本数据集，名为InterPT，用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源，从而赋予ProtLLM理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了ProtLLM，并探索了其新颖的蛋白质语言应用。实验证明，ProtLLM不仅在蛋白质中心任务上表现出卓越性能，并且在蛋白质语言任务上具有零-shot和上下文学习能力。

Feb, 2024

大型语言模型用于蛋白质理解的微调数据集和基准评估

通过整合前期训练模型和预训练的语言模型，本研究提出了ProteinLMDataset数据集和ProteinLMBench基准数据集，用于提升大型语言模型在蛋白质序列理解方面的能力，并通过实验证明其在蛋白质理解能力方面超越了GPT-4。

Jun, 2024

Geneverse: 用于基因组学和蛋白质组学研究的开源多模态大型语言模型集合

基因组学和蛋白质组学研究中的大型语言模型（LLMs）应用前景广阔。我们提出了一种名为Geneverse的针对基因组学和蛋白质组学研究中三个创新任务的经过微调的LLMs和多模态LLMs（MLLMs）集合。Geneverse模型基于领域特定的数据集进行训练和评估，我们使用高级的参数高效微调技术来实现模型适应性，包括生成基因功能描述、从蛋白质结构推理蛋白功能以及从空间转录组数据中选择标记基因。我们证明经过调适的LLMs和MLLMs在这些任务中表现良好，可能在准确性和结构正确性方面优于基于闭源的大规模模型。我们所使用的所有训练策略和基本模型均可以免费获取。

Jun, 2024

TourSynbio：用于连接文本和蛋白质序列的多模态大型模型与代理框架在蛋白质工程中的应用

本研究解决了大语言模型在蛋白质工程中未充分利用其与自然语言的相似性的问题。提出的TourSynbio-7B模型无需外部蛋白编码器，能够内在理解蛋白质，从而提高了性能和模型的简便性。通过成功的蛋白质工程案例，展示了该模型及其代理的有效性和潜在影响。

Aug, 2024