提出了 BioT5,这是一个综合的预训练框架,通过化学知识和自然语言关联来丰富生物学中的跨模态集成,具有 100% 稳健的分子表示,从非结构化生物文献的上下文中提取知识,并区分结构化和非结构化知识,在多种任务中展现出卓越性能,能够捕捉生物实体的潜在关系和属性。
Oct, 2023
本文提出了一个经过预训练的分子语言模型 MolGen,通过多任务分子前缀调整自我反馈机制,可以在多个分子生成任务和不同领域(合成和天然产物)中有效地学习和共享知识,进而在众多分子生成基准数据集上获得优越性能。
Jan, 2023
我们提出了 3D-MolT5 框架,通过在特定的三维令牌词汇表上映射细粒度的三维亚结构表示,实现了一维分子序列和三维分子结构的无缝组合,在一个统一的架构中编码了分子序列、分子结构和文本序列。对于分子属性预测、分子说明和基于文本的分子生成任务,我们的 3D-MolT5 在多个下游数据集上展现出优异的性能。
Jun, 2024
本文提出了一种基于大型语言模型的框架(MolReGPT),通过检索式提示范式在上下文中进行少量评估,并利用分子相似性原理从本地数据库检索类似分子及其文本描述来启用 LLMS,用于分子说明翻译以促进分子发现
Jun, 2023
本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2,并经过预训练过程的优化,发现在分子预测任务上优于现有的最先进架构。
Sep, 2022
本文提出了 MolXPT,一个基于 SMILES 的统一文本和分子预训练语言模型,将来自 PubMed 的文本序列和来自 PubChem 的 SMILES 序列一起进行预训练,并取得了超越强基线的性能。
May, 2023
本文提出了一种基于自然语言描述和编辑目标分子的新型任务,即 “对话式分子设计”,并设计了一个通用的 ChatMol 模型,它采用了大规模语言模型和化学知识相结合的技术,来实现将自然语言和化学语言相互转换在分子领域的应用。
生物学和化学领域的最新进展已经利用多模态学习,将分子及其自然语言描述整合到药物发现中。然而,当前的预训练框架局限于两种模态,并且设计一个能够处理不同模态(如自然语言、2D 分子图、3D 分子构象和 3D 蛋白质)的统一网络仍具有挑战性。在这项工作中,我们提出了 MolBind,这是一个通过对比学习训练多模态编码器的框架,将所有模态映射到共享特征空间以实现多模态语义对齐。为了促进 MolBind 在多模态上的有效预训练,我们还构建了一个包含图 - 语言、构象 - 语言、图 - 构象和构象 - 蛋白质配对数据的高质量数据集,即 MolBind-M4。MolBind 在广泛任务上展示了优越的零样本学习性能,表明它能够很好地捕捉多种模态的潜在语义。
Mar, 2024
提出了一种多领域、多任务的语言模型,能够处理化学和自然语言,并共享模型参数来优化实验室操作和科学发现加速。
本研究设计和装备 MolX 作为一种多模态外部模块,通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对 LLM 进行微调。