逐个原子生成蛋白质及其超越：基于语言模型的研究

Aug, 2023

逐个原子生成蛋白质及其超越：基于语言模型的研究

Atom-by-atom protein generation and beyond with language models

Daniel Flam-Shepherd, Kevin Zhu, Alán Aspuru-Guzik

TL;DR蛋白质语言模型和化学语言模型可以学习蛋白质的原子级表示，实现无限制的蛋白质生成，包括修改侧链和生成蛋白质 - 药物结合物，展示了语言模型在原子级别的生物分子设计的潜力。

Abstract

protein language models learn powerful representations directly from sequences of amino acids. However, they are constrained to generate proteins with only the set of amino acids represented in their vocabulary. In contrast, →

protein language models chemical language models atom-level representations protein generation biomolecular design

发现论文，激发创造

语言模型能够直接在三维空间中生成 XYZ、CIF 和 PDB 文件的分子、材料和蛋白质结合位点

本文研究利用语言模型进行分子设计，探讨了通过正常神经网络训练的语言模型在不修改结构的情况下，如何从多种显著不同的化学结构产生三维化合物、晶体和蛋白质结合位点。同时，讨论了语言模型的优点和局限性，并强调了无需使用简化的分子表示方法进行训练即可探索三维化学空间的能力。

May, 2023

分子发现中的语言模型

科学语言模型在分子发现中的作用及其在药物设计、性质预测和反应化学中的优势，以及通过降低科学语言建模领域的门槛来加速化学发现，并提出结合聊天机器人界面和计算化学工具的分子设计愿景。

Sep, 2023

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

ProGen: 蛋白质生成的语言建模

利用 1.2B 的参数语言模型 ProGen，将蛋白质工程视为无监督的序列生成问题，以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合，从而生成出更具有进化多样性的序列，为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。

Mar, 2020

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

ProtAgents: 基于大型语言模型的物理与机器学习结合的蛋白质发现

基于大语言模型 (LLMs) 的 ProtAgents 平台引入多个具有不同能力的 AI 智能体，通过动态环境下的协同工作，致力于解决多目标的蛋白质设计与分析问题，展示了 LLMs 在材料领域中发挥的潜力，并为自主材料发现与设计开辟了新的途径。

Jan, 2024

Lingo3DMol: 基于口袋的三维分子生成语言模型

本文提出了一种基于口袋的三维分子生成方法，利用具有生成 3D 坐标能力的语言模型，并设计了扰动复原预训练任务，介绍了一种新的分子表示方法，并利用 CrossDocked 和 DUD-E 数据集对其进行了评估。该方法在几乎所有指标上实现了最优的表现，特别是在结合模式、药物性质、合理构型和推理速度方面。

May, 2023

ProGen2：探索蛋白质语言模型的界限

介绍了一套名为 ProGen2 的蛋白质语言模型，它具有 64 亿个参数，在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布，生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。

Jun, 2022

基于结构信息的蛋白质语言模型

通过将远程同源检测集成到蛋白质语言模型中，我们实现了将结构信息融入蛋白质语言模型，从而在蛋白质功能预测任务中提高了功能注释准确性。

Feb, 2024