基于多模态分子结构文本模型的文本检索和编辑
通过综述多模态分子研究的框架,本文探讨了人工智能在分子科学中的应用,特别关注文本与分子之间的对齐方法以及使用大型语言模型和提示技术进行分子任务的重要应用,同时讨论了该领域的局限性和未来研究的几个有希望的方向。
Mar, 2024
通过对分子的图形和语义相关文本数据进行对比学习,我们提出了一个分子多模态基础模型,该模型结合了图形和自然语言的特定和互补信息,更好地抓住了分子的专业知识以及具备了从自然语言描述中生成有意义的分子图形的能力。
Sep, 2022
通过一种多模态的大型语言模型 InstructMol,将分子结构与自然语言有效地对齐,通过一种指令调整方法,利用有限的领域特定数据与分子和文本信息相结合的两阶段训练策略,展示了在药物发现相关的分子任务上的显著性能改进,超过了领先的大型语言模型,并显著缩小了与专业模型之间的差距,从而为实现一个多才多艺、可靠的药物发现助手奠定了坚实的基础。
Nov, 2023
通过在语言模型中嵌入 3D 分子编码器,我们提出了 3D-MoLM:3D 分子语言建模,用于解决语言模型在理解三维分子结构方面的限制,在生物分子领域具有潜力。
Jan, 2024
我们提出了 3D-MolT5 框架,通过在特定的三维令牌词汇表上映射细粒度的三维亚结构表示,实现了一维分子序列和三维分子结构的无缝组合,在一个统一的架构中编码了分子序列、分子结构和文本序列。对于分子属性预测、分子说明和基于文本的分子生成任务,我们的 3D-MolT5 在多个下游数据集上展现出优异的性能。
Jun, 2024
本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact,该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定化学反应相关的文本描述,然后将其与反应的分子表示进行对齐。通过在预测器训练中加入辅助的掩码语言模型目标,增强了这种对齐。我们通过两个化学任务进行了实证验证:反应条件推荐和一步逆合成。通过利用文本检索,TextReact 显著优于仅基于分子数据训练的最先进的化学信息模型。
Dec, 2023
将自然语言和图形表示相结合,通过对齐神经图形表示和特性文本描述的表示,提高了下游分子属性分类任务的性能,实现了与仅以图形方式进行预训练的模型相比的 + 4.26% AUROC 的增益,并相对于最近提出的分子图 / 文本对比训练的 MoMu 模型 (Su et al. 2022) 的 + 1.54% 增益。
Jul, 2023
通过引入 GIT-Mol 和 GIT-Former,我们开发了一种创新的任意类型到语言的分子翻译策略,并在分子字幕生成方面实现了 10%-15% 的改进,在属性预测方面提高了 5%-10% 的准确性,并且在分子生成有效性方面提高了 20%。
Aug, 2023
通过 3DToMolo 这一多模式引导生成 / 优化任务的文本结构对齐对称扩散框架,我们提出了一种创新方法来解决分子设计问题,取得了优于现有方法的结果表现,并能够生成包含指定目标亚结构的新型分子。
Mar, 2024