一个 SARS-CoV-2 相互作用数据集和 VHH 序列语料库用于抗体语言模型
利用 VHHs 的简单结构,作者建立了一个大规模的数据集 AVIDa-hIL6,以人源性细胞因子 IL-6 为抗原,包含 573,891 个抗原 - VHHs 氨基酸序列对,并且所有抗原 - VHHs 对都有可靠的标签进行分类,这个数据集可以用于预测抗体 - 抗原相互作用,研究人员进一步发现存在潜在的机器学习模型来预测有效的抗体。
Jun, 2023
本文提出了一种基于预训练模型的计算抗体设计方法,通过对抗体序列数据的预先训练,结合一种一次性的序列 - 结构生成方法和精心设计的模块,成功地生成了具有高性能的抗原特异性抗体。
Oct, 2022
本文介绍一种名为 AntiBERTy 的语言模型,该模型基于 558M 个天然抗体序列进行训练,在免疫库中对抗体进行聚类,用于理解免疫应答的亲和力成熟的过程,针对高度冗余的序列进行多实例学习,以确定免疫库中关键的结合残基。该方法的进一步发展将能够仅从免疫库序列中提供新的抗原结合洞察。
Dec, 2021
本文探讨了预训练语言模型在不同抗体任务中的表现,以及持续引入生物机制是否有助于模型。我们提供了 Antibody Understanding Evaluation(ATUE)基准,并通过实证研究全面评估了蛋白质预训练语言模型的性能,以得出结论和新见解,这对于药物发现和免疫过程的理解都有实际应用。
Jan, 2023
我们提出了 IgBert 和 IgT5,这两个迄今为止最好的抗体特异性语言模型,在设计更好的治疗方法方面,能持续处理成对和不成对的变量区域序列作为输入,并且在抗体工程的多样化设计和回归任务上,这些模型胜过了现有的抗体和蛋白质语言模型。这一进展在利用机器学习、大规模数据集和高性能计算增强抗体治疗方法的设计方面迈出了重要的一步。
Mar, 2024
本研究提出了一种名为 Vaxformer 的新型条件蛋白质语言模型,用于生成类自然的抗原控制的 SARS-CoV-2 刺突蛋白。实验结果表明,Vaxformer 模型比现有的状态 - of-the-art 条件变分自编码器模型表现更优,为疫苗设计和缓解全球健康挑战的角色带来了希望。
May, 2023
我们描述了一种用于自动识别与病毒和宿主相关的命名分类和其他实体的新数据集,并进一步描述了使用预训练模型在该新数据集上进行命名实体识别(NER)任务的一些初步结果。我们建议,我们手动注释的摘要数据集现在为未来训练自动从科学出版物中提取宿主 - 病原体检测方法的 NER 模型提供了金标准语料库,并进一步解释了我们的工作如何自动从科学文献中预测重要的与人类健康相关的病毒溢出风险的概念。
May, 2023
本研究提出了一个开放查询的抗病毒药物资源库和机器学习平台,拥有手工筛选的关于试验验证可能抗病毒药物分子的数据集,并支持药物活性预测、虚拟筛选和其他相关任务。
Sep, 2022
我们提出了一种层次训练范式 (HTP) 用于抗体序列结构的联合设计,通过结合几何图神经网络和大规模蛋白质语言模型,从几何结构和抗体序列数据库中挖掘进化信息,以确定配体结合位姿和强度,并取得了目前的最优性能。
Oct, 2023
我们提出了一种蒙版语言模型(tcrLM),用于预测 T 细胞受体(TCR)与抗原的结合,通过训练 tcrLM 来推断被屏蔽的片段,从 TCR 序列中提取表达特征,并在大规模 COVID-19 pTCR 结合测试集上超过当前最先进的方法,有效预测免疫疗法反应和临床结果。
Jun, 2024