- 蛋白质语言模型是否计算优化?
通过研究蛋白质语言模型的规模定律,我们发现 pLM 的大小在计算预算范围内呈次线性增长,表现出随着模型规模增加性能递减的现象。研究结果显示 pLM 的训练损失也存在性能平稳期,这表明广泛使用的 pLM 可能不会在计算效率上达到最佳状态,而使 - T 细胞受体表征的对比学习
通过简单的对比编码 T 细胞受体(TCR)的主要序列,提出了一种名为 SCEPTR 的 TCR 语言模型,它能够进行高效的数据转移学习,并且通过独特的预训练策略结合自对比学习和掩码语言建模的方法,取得了最先进的性能,从而解码了 TCR 特异 - ACLProtT3: 基于文本的蛋白质理解的蛋白质到文本生成
ProtT3 是一个框架,通过将 Protein Language Models 作为其蛋白质理解模块,使语言模型能够理解氨基酸序列,并实现有效的蛋白质到文本生成。
- ICLR用深入突变扫描对蛋白质语言模型进行微调,提高变体效应预测
通过深度突变扫描(DMS)试验的实验性映射,使用归一化的对数比率(NLR)头部,提出了一种改进蛋白质语言模型(PLMs)性能的微调方法,以改善变异效应预测的性能。
- 使用 Attention U-Net 和 ProtTrans 蛋白质语言模型进行蛋白质内在无序预测
使用蛋白质语言模型 ProtTrans 构建的基于 Attention U-Net 卷积神经网络的蛋白质内在无序预测器 DisorderUnetLM 在预测蛋白质内在无序区域方面达到了最好的结果,排名 CAIP-2 基准的 9th(ROC- - 从蛋白质语言模型中恢复高阶相互作用
基于 ESM2 的蛋白质语言模型的傅里叶分析发现了在稀疏 - 崎岖平面上占据主导地位的三个区域,其中两个区域更适合进行稀疏傅里叶变换,通过使用仅 700 万个 ESM2 样本中的相互作用可以在更稀疏的区域获得 0.72 的 R^2,而在更密 - 多尺度蛋白质语言模型用于统一分子建模
通过在多尺度编码切换的蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,ms-ESM(多尺度 ESM)提出了一种新颖的方法,实现了多尺度统一的分子建模,实验结果表明,ms-ESM 在蛋白质 - 分子任务方面超过了以前的 - 基于结构信息的蛋白质语言模型
通过将远程同源检测集成到蛋白质语言模型中,我们实现了将结构信息融入蛋白质语言模型,从而在蛋白质功能预测任务中提高了功能注释准确性。
- 赋予蛋白质语言模型结构知识
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
- PepHarmony: 一个用于综合序列和基于结构的肽编码的多视角对比学习框架
该研究介绍了一种新颖的多视角对比学习框架 PepHarmony,用于序列化的肽编码任务,它创新性地将序列和结构级别信息结合到序列级编码模块中,并通过对比学习捕捉了肽序列和结构之间的复杂关系。此框架对于肽表示具有显著的能力,并为肽药物发现和肽 - xTrimoPGLM: 语言解码的统一百亿级预训练变压器
通过创新的预训练框架,提出了一个统一的蛋白质语言模型 xTrimoPGLM,能够同时处理蛋白质理解和生成任务,拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中,xTrimoPGLM 明显优 - 蛋白质语言模型中的知识神经元识别
神经语言模型在自然语言处理任务中学习复杂实体表示成为强大工具,然而在计算生物学等领域中,其可解释性仍然是一个重要挑战。本研究旨在通过识别和表征知识神经元增强蛋白质语言模型(特别是 ESM 模型)的可解释性,通过将 ESM 模型针对酶序列分类 - 无偏的、通用的、高灵敏度的信号肽预测器与深度蛋白质语言模型
用计算方法准确识别信号肽,尤其对于元基因组数据分析,提出了一种基于蛋白质语言模型的信号肽分类和切割位点预测的深度学习方法,并应用标签分布感知边界损失处理数据不平衡问题,并利用蛋白质的进化信息丰富表示来克服物种信息依赖。
- PETA: 基于亚词分词的蛋白质迁移学习对下游应用的影响评估
基于 14 种不同词汇大小的 PETA 训练语言模型在 33 个多样的下游数据集上进行了数千次测试,研究表明词汇大小在 50 到 200 之间对于模型的优化最佳,而超过 800 的大小则对模型的表征性能产生不利影响。
- PGraphDTA: 利用蛋白质语言模型和接触图改进药物靶点相互作用预测
本研究探讨了药物靶点相互作用预测的各种技术及其改进方法,通过整合蛋白质语言模型和接触图信息提高了模型性能,为寻找针对特定蛋白质的潜在药物加速了药物发现过程。
- 逐个原子生成蛋白质及其超越:基于语言模型的研究
蛋白质语言模型和化学语言模型可以学习蛋白质的原子级表示,实现无限制的蛋白质生成,包括修改侧链和生成蛋白质 - 药物结合物,展示了语言模型在原子级别的生物分子设计的潜力。
- 使用掩码语言建模配对相互作用蛋白序列
从蛋白质序列中预测相互作用的蛋白质,并使用蛋白质语言模型的先进方法进行匹配。
- ProtFIM: 基于蛋白质语言模型的填空中间蛋白质序列设计
通过设计一个新的基准(SEIFER)来评估现有的蛋白质语言模型,研究显示,通过中间填充转换(ProtFIM)训练的语言模型更适合蛋白质工程,并能够产生良好的蛋白质表示。
- 通过编码器 - 解码器语言模型有条件生成成对抗体链序列
pAbT5 是第一个用于蛋白质 - 蛋白质相互作用的编码器 - 解码器 LM,其通过使用 T5-based 架构对抗体链配对进行正向和逆向翻译,可以准确地反映链配对。
- ProGen2:探索蛋白质语言模型的界限
介绍了一套名为 ProGen2 的蛋白质语言模型,它具有 64 亿个参数,在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布,生成新的可行序列以及在不需要额外微调的情况下预测蛋