ProtFIM: 基于蛋白质语言模型的填空中间蛋白质序列设计
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
通过在数据集中间将文本移动到末尾后,自回归语言模型可以学习填补文本,进行数据增强不会影响原始的生成性能,因此我们建议未来应默认使用填补法来训练自回归语言模型,我们通过对关键超参数的剖析,制定了强有力的默认设置和最佳实践。
Jul, 2022
利用基于蛋白质语言模型的嵌入(ESM-2),我们开发了一个名为 pLMFPPred(蛋白质语言模型功能肽预测器)的工具,用于预测功能性肽并识别有毒肽,同时引入了 SMOTE-TOMEK 数据合成采样和 Shapley 值基于特征选择技术以缓解数据不平衡问题和减少计算成本。在经过验证的独立测试集上,pLMFPPred 分别取得了 0.974、0.99 和 0.974 的准确率、曲线下面积(AUC-ROC)和 F1-Score 值,比当前用于预测功能性肽的方法表现更优。实验结果表明,提出的方法(pLMFPPred)在准确性、曲线下面积(AUC-ROC)和 F1-Score 等方面具有更好的性能,是一种用于预测功能性肽的新的计算方法。
Sep, 2023
我们提出了 ProtLLM,这是一个通用的跨模态大语言模型,用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制,能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外,我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表,我们使模型能够从大量候选项中预测不仅自然语言,还包括蛋白质。另外,我们构建了一个大规模的交织蛋白质 - 文本数据集,名为 InterPT,用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源,从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM,并探索了其新颖的蛋白质语言应用。实验证明,ProtLLM 不仅在蛋白质中心任务上表现出卓越性能,并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。
Feb, 2024
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。
Mar, 2020
本论文提出了 PiFold 具有改进恢复能力的新型残基特征提取器和 PiGNN 层,可一次性生成蛋白质序列。实验结果显示,PiFold 能够快速恢复结构,并且在 CATH 4.2,TS50 和 TS500 上的恢复效果也非常好,是以前方法的 70 倍快。
Sep, 2022
基于 Fill-in Language Model (FiLM) 的研究在语言模型中引入双向上下文,使其具备在任意位置灵活生成文本的能力,并通过采样自 Beta 分布的变化掩码概率来提升其生成能力。在自动和人工评估中,FiLM 优于现有的依赖于按照从左到右训练的文本段落重新排列的插入方法。FiLM 易于实现,可以从头开始训练,或从左到右的语言模型进行微调。与类似规模的强左到右语言模型相比,FiLM 的困惑度随着模型规模的增加逐渐接近,显示了其可扩展性和作为大型语言模型的潜力。
Oct, 2023
我们引入了 Syntax-Aware Fill-In-the-Middle (SAFIM),这是一个新的基准,用于评估大型语言模型 (LLMs) 在代码填充任务中的性能。该基准集中在对程序结构进行语法感知的补全,如代码块和条件表达式,并包括来自多种编程语言的 17,720 个示例,这些示例源自近期的代码提交,旨在最小化数据污染。SAFIM 提供了一个强大的框架,具有各种提示设计和新颖的语法感知后处理技术,有助于在 LLMs 之间进行准确和公平的比较。我们对 15 个 LLMs 的全面评估表明,FIM 预训练不仅增强了 FIM 的能力,还改善了利用 LLMs 进行从左到右 (L2R) 推理的性能。我们的发现挑战了传统信念,并表明预训练方法和数据质量比模型规模更具影响力。因此,SAFIM 成为未来在代码 LLMs 的有效预训练策略方面的研究基础平台。评估工具包和数据集可在此 https URL 获得,排行榜可在此 https URL 获得。
Mar, 2024