一个 SARS-CoV-2 相互作用数据集和 VHH 序列语料库用于抗体语言模型

May, 2024

一个 SARS-CoV-2 相互作用数据集和 VHH 序列语料库用于抗体语言模型

A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models

Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Akihiro Imura

TL;DR通过使用 AVIDa-SARS-CoV-2 数据集以评估抗体语言模型的表示能力，加速抗体疗法的发现与 AI 驱动的抗体发现的发展。

Abstract

Antibodies are crucial proteins produced by the immune system to eliminate harmful foreign substances and have become pivotal therapeutic agents for treating human diseases. To accelerate the discovery of antibody therapeutics, there is growing interest in constructing →

antibody therapeutics language models avida-sars-cov-2 vhh sequences binding prediction

发现论文，激发创造

AVIDa-hIL6：一份大规模的 VHH 数据集，由免疫大羊驼生成，用于预测抗原 - 抗体相互作用

利用 VHHs 的简单结构，作者建立了一个大规模的数据集 AVIDa-hIL6，以人源性细胞因子 IL-6 为抗原，包含 573,891 个抗原 - VHHs 氨基酸序列对，并且所有抗原 - VHHs 对都有可靠的标签进行分类，这个数据集可以用于预测抗体 - 抗原相互作用，研究人员进一步发现存在潜在的机器学习模型来预测有效的抗体。

Jun, 2023

融合预训练范式的抗体序列 - 结构协同设计

本文提出了一种基于预训练模型的计算抗体设计方法，通过对抗体序列数据的预先训练，结合一种一次性的序列 - 结构生成方法和精心设计的模块，成功地生成了具有高性能的抗原特异性抗体。

Oct, 2022

利用语言模型和弱监督学习揭示抗体亲和力成熟

本文介绍一种名为 AntiBERTy 的语言模型，该模型基于 558M 个天然抗体序列进行训练，在免疫库中对抗体进行聚类，用于理解免疫应答的亲和力成熟的过程，针对高度冗余的序列进行多实例学习，以确定免疫库中关键的结合残基。该方法的进一步发展将能够仅从免疫库序列中提供新的抗原结合洞察。

Dec, 2021

关于预训练语言模型在抗体研究中的应用

本文探讨了预训练语言模型在不同抗体任务中的表现，以及持续引入生物机制是否有助于模型。我们提供了 Antibody Understanding Evaluation（ATUE）基准，并通过实证研究全面评估了蛋白质预训练语言模型的性能，以得出结论和新见解，这对于药物发现和免疫过程的理解都有实际应用。

Jan, 2023

大规模配对抗体语言模型

我们提出了 IgBert 和 IgT5，这两个迄今为止最好的抗体特异性语言模型，在设计更好的治疗方法方面，能持续处理成对和不成对的变量区域序列作为输入，并且在抗体工程的多样化设计和回归任务上，这些模型胜过了现有的抗体和蛋白质语言模型。这一进展在利用机器学习、大规模数据集和高性能计算增强抗体治疗方法的设计方面迈出了重要的一步。

Mar, 2024

Vaxformer：抗原性可控 Transformer 用于设计 SARS-CoV-2 疫苗

本研究提出了一种名为 Vaxformer 的新型条件蛋白质语言模型，用于生成类自然的抗原控制的 SARS-CoV-2 刺突蛋白。实验结果表明，Vaxformer 模型比现有的状态 - of-the-art 条件变分自编码器模型表现更优，为疫苗设计和缓解全球健康挑战的角色带来了希望。

May, 2023

面向病毒 - 宿主相互作用提取的新数据集

我们描述了一种用于自动识别与病毒和宿主相关的命名分类和其他实体的新数据集，并进一步描述了使用预训练模型在该新数据集上进行命名实体识别（NER）任务的一些初步结果。我们建议，我们手动注释的摘要数据集现在为未来训练自动从科学出版物中提取宿主 - 病原体检测方法的 NER 模型提供了金标准语料库，并进一步解释了我们的工作如何自动从科学文献中预测重要的与人类健康相关的病毒溢出风险的概念。

May, 2023

VDDB: 一种全面的抗病毒药物发现资源和机器学习平台

本研究提出了一个开放查询的抗病毒药物资源库和机器学习平台，拥有手工筛选的关于试验验证可能抗病毒药物分子的数据集，并支持药物活性预测、虚拟筛选和其他相关任务。

Sep, 2022

抗体结构 - 序列共设计的分层训练方法

我们提出了一种层次训练范式 (HTP) 用于抗体序列结构的联合设计，通过结合几何图神经网络和大规模蛋白质语言模型，从几何结构和抗体序列数据库中挖掘进化信息，以确定配体结合位姿和强度，并取得了目前的最优性能。

Oct, 2023

用于预测 T 细胞受体 - 抗原结合特异性的大型语言模型

我们提出了一种蒙版语言模型（tcrLM），用于预测 T 细胞受体（TCR）与抗原的结合，通过训练 tcrLM 来推断被屏蔽的片段，从 TCR 序列中提取表达特征，并在大规模 COVID-19 pTCR 结合测试集上超过当前最先进的方法，有效预测免疫疗法反应和临床结果。

Jun, 2024