用深入突变扫描对蛋白质语言模型进行微调,提高变体效应预测
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023
利用大型语言模型(LLM),我们引入了一种 ESM 辅助高效方法,将蛋白质序列和结构特征整合在一起,以预测单点突变引起的蛋白质热稳定性变化,并且我们设计了一个经过细致筛选的数据集,以避免数据泄漏,以便更公平地进行模型比较。
Dec, 2023
该研究介绍了扩散蛋白质语言模型(DPLM),一种多功能的蛋白质语言模型,展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练,使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外,DPLM 通过生成预训练使得其对蛋白质具有更好的理解,成为一种优秀的表示学习器,可以根据不同的预测任务进行微调,与 ESM2(Lin et al.,2022)相比具有较好的效果。此外,DPLM 可以根据需求进行定制,通过几种方式展示其条件生成的能力:(1)以部分肽段序列为条件,例如高成功率生成功能基序的脚手架;(2)以其他模态为条件,例如结构条件生成逆折叠;以及(3)通过插入式分类器指导将序列生成导向所需的属性,例如满足指定的二级结构。
Feb, 2024
通过引入轻量化图形表示学习方案,本研究建议一种有效分析野生型蛋白质微环境、推荐实用高阶突变,并使用有限的计算资源和少量的突变训练样本进行推断模型的连续改进的方法,从而准确预测蛋白质功能和变异效应。
Apr, 2023
本文研究了利用下一代测序技术进行基因组测序以及使用机器学习模型预测 LoFtool 分数和基因突变的相关特性,通过建立多个模型并评估其性能,得到了测试集 r 平方值为 0.97 的结果。
Jan, 2024
现有的故障检测方法在大型语言模型上表现不佳,因此我们提出了一种名为 MuCS 的基于提示变异的预测置信度平滑方法,该方法能显著提升现有方法在测试覆盖率上的改进达到 97.64%。
Apr, 2024
通过整合前期训练模型和预训练的语言模型,本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集,用于提升大型语言模型在蛋白质序列理解方面的能力,并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。
Jun, 2024
通过研究在蛋白质或有机小分子等易突变的离散组合空间中训练的机器学习(ML)模型的数据误差缩放行为的趋势,我们发现了学习过程中出现的不连续的单调阶跃现象,其表现为特定训练数据阈值时测试误差的快速下降。我们发现了饱和和渐近衰减两种学习模式,并发现它们取决于训练集中含有的突变复杂性水平(即突变数量)。本研究对于在可突变离散空间中的机器学习,如化学性质或蛋白质表型预测,并改善基本统计学习理论的理解具有重要意义。
May, 2024
提出了一种基于深度学习的模型 DeepSequence,可以预测基因突变对分子属性的影响,具有非线性的高阶约束,是一种能够应用于有关蛋白质和 RNA 相互作用的普适模型。
Dec, 2017
通过自我监督的多层预训练框架 ProMIM,全面捕获三个层级的蛋白质相互作用,该框架在标准基准测试中表现优异,特别是在可能导致蛋白质背骨构象显著变化的突变上,还能进行零样本评估,显示了其作为新一代强大的药物开发工具在 SARS-CoV-2 突变效应预测和抗体优化方面的潜力。
May, 2024