PRESTO:渐进预训练改善合成化学结果
本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2,并经过预训练过程的优化,发现在分子预测任务上优于现有的最先进架构。
Sep, 2022
本研究设计和装备 MolX 作为一种多模态外部模块,通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对 LLM 进行微调。
Jun, 2024
预训练语言模型和信息传递神经网络在处理分子文本和分子科学领域展示了显著的能力。本文提出了两种策略来评估信息整合是否能增强性能:对比学习和融合,经实证分析表明,当应用于较小的分子图时,整合方法相比基准模型表现出优越性能,而当应用于大规模图时,这些整合方法并未带来性能改进。
May, 2024
我们研究了基于 SMolInstruct 数据集进行 fine-tune 的大型语言模型在化学任务上表现出色,特别是 Mistral 模型,同时,我们还分析了可训练参数的影响,为未来的研究提供了一些见解。
Feb, 2024
$\textbf {MolT5}$ 是一个自监督学习框架,可用于对大量未标记的自然语言文本和分子字符串进行预训练,允许新的、有用的和具有挑战性的类比于传统的视觉语言任务。
Apr, 2022
化学和人工智能的交叉领域是一个积极研究的领域,旨在加速科学发现;该研究聚焦于机器翻译化学语言和分子模型,并采用一种新的训练方法,通过对比优化来提高模型性能。
May, 2024
生物学和化学领域的最新进展已经利用多模态学习,将分子及其自然语言描述整合到药物发现中。然而,当前的预训练框架局限于两种模态,并且设计一个能够处理不同模态(如自然语言、2D 分子图、3D 分子构象和 3D 蛋白质)的统一网络仍具有挑战性。在这项工作中,我们提出了 MolBind,这是一个通过对比学习训练多模态编码器的框架,将所有模态映射到共享特征空间以实现多模态语义对齐。为了促进 MolBind 在多模态上的有效预训练,我们还构建了一个包含图 - 语言、构象 - 语言、图 - 构象和构象 - 蛋白质配对数据的高质量数据集,即 MolBind-M4。MolBind 在广泛任务上展示了优越的零样本学习性能,表明它能够很好地捕捉多种模态的潜在语义。
Mar, 2024
通过一种多模态的大型语言模型 InstructMol,将分子结构与自然语言有效地对齐,通过一种指令调整方法,利用有限的领域特定数据与分子和文本信息相结合的两阶段训练策略,展示了在药物发现相关的分子任务上的显著性能改进,超过了领先的大型语言模型,并显著缩小了与专业模型之间的差距,从而为实现一个多才多艺、可靠的药物发现助手奠定了坚实的基础。
Nov, 2023
基于机器学习的原子间势函数已经在原子级材料建模领域产生了巨大的影响,但是这些势函数的质量和数量对应的量子力学参考数据至关重要,因此开发数据集和训练流程成为一个日益重要的挑战。我们在这篇论文中展示了利用合成的原子级数据作为神经网络原子间势函数的预训练任务是有益的。经过大规模的合成数据集的预训练后,这些模型可以在更小的量子力学数据集上进行微调,提高计算实践中的数值精度和稳定性。我们通过一系列与碳相关的等变图神经网络势函数进行可行性验证,并进行了初步实验来测试该方法的局限性。
Jul, 2023
该研究提出了一种基于对比学习构建多语言分子嵌入的预训练方法 MM-Deacon,通过对 SMILES 和 IUPAC 语言的大规模分子进行预训练,在分子性质预测、零样本跨语言检索和药物相互作用预测任务中取得了鲁棒性良好的结果。
Sep, 2021