MolXPT:将文本与分子结合进行生成预训练
利用自然语言处理模型 GPT-MolBERTa,通过分析分子的详细文本描述来预测其性质,并展示模型的可解释性。
Sep, 2023
本研究设计和装备 MolX 作为一种多模态外部模块,通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对 LLM 进行微调。
Jun, 2024
$\textbf {MolT5}$ 是一个自监督学习框架,可用于对大量未标记的自然语言文本和分子字符串进行预训练,允许新的、有用的和具有挑战性的类比于传统的视觉语言任务。
Apr, 2022
分子 - 文本建模是一个新兴的研究方向,旨在通过文本界面和文本知识促进与分子相关的任务。针对单个分子之外,研究反应 - 文本建模对于帮助合成新材料和药物具有潜力,然而,以往的研究大多忽视了反应 - 文本建模。为了解决这些挑战,我们提出了一种新的预训练方法 ReactXT,用于反应 - 文本建模,并提供了一个新的数据集 OpenExp,用于实验过程预测。我们的方法在实验过程预测、分子字幕生成和逆向合成方面表现出一致的改进,并取得了竞争性的结果。
May, 2024
本文提出了一种基于大型语言模型的框架(MolReGPT),通过检索式提示范式在上下文中进行少量评估,并利用分子相似性原理从本地数据库检索类似分子及其文本描述来启用 LLMS,用于分子说明翻译以促进分子发现
Jun, 2023
本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2,并经过预训练过程的优化,发现在分子预测任务上优于现有的最先进架构。
Sep, 2022
本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法,该方法在虚拟筛选和其他药物发现任务中表现出优越性,在小数据集和复杂分析环境中表现良好。
Nov, 2019
通过引入 GIT-Mol 和 GIT-Former,我们开发了一种创新的任意类型到语言的分子翻译策略,并在分子字幕生成方面实现了 10%-15% 的改进,在属性预测方面提高了 5%-10% 的准确性,并且在分子生成有效性方面提高了 20%。
Aug, 2023
该研究介绍了一种新的多模态分子结构 - 文本模型 MoleculeSTM,它结合学习化学结构和文本描述,以有效利用化学领域中丰富的文本知识,同时提高药物设计的效率和创新能力,并在多个基准测试中获得了最先进的泛化能力。
Dec, 2022
训练数据记忆和新颖性受训练数据质量影响;GP-MoLFormer 可用于生成新颖、有效且独特的分子;在三个不同任务上,GP-MoLFormer 表现良好或相当,展示了它的通用性。
Apr, 2024