逐个原子生成蛋白质及其超越:基于语言模型的研究
本文研究利用语言模型进行分子设计,探讨了通过正常神经网络训练的语言模型在不修改结构的情况下,如何从多种显著不同的化学结构产生三维化合物、晶体和蛋白质结合位点。同时,讨论了语言模型的优点和局限性,并强调了无需使用简化的分子表示方法进行训练即可探索三维化学空间的能力。
May, 2023
科学语言模型在分子发现中的作用及其在药物设计、性质预测和反应化学中的优势,以及通过降低科学语言建模领域的门槛来加速化学发现,并提出结合聊天机器人界面和计算化学工具的分子设计愿景。
Sep, 2023
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。
Mar, 2020
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
基于大语言模型 (LLMs) 的 ProtAgents 平台引入多个具有不同能力的 AI 智能体,通过动态环境下的协同工作,致力于解决多目标的蛋白质设计与分析问题,展示了 LLMs 在材料领域中发挥的潜力,并为自主材料发现与设计开辟了新的途径。
Jan, 2024
本文提出了一种基于口袋的三维分子生成方法,利用具有生成 3D 坐标能力的语言模型,并设计了扰动复原预训练任务,介绍了一种新的分子表示方法,并利用 CrossDocked 和 DUD-E 数据集对其进行了评估。该方法在几乎所有指标上实现了最优的表现,特别是在结合模式、药物性质、合理构型和推理速度方面。
May, 2023
介绍了一套名为 ProGen2 的蛋白质语言模型,它具有 64 亿个参数,在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布,生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。
Jun, 2022