跨越新前沿:知识增强的大型语言模型提示用于零-shot文本基础的全新分子设计
通过采用Fragment-Based Drug Design范例生成小分子结构语言模型并进行分子生成,大幅提高了分子的有效性和独特性,达到了基于图像的模型的最佳表现。
Feb, 2020
$\textbf{MolT5}$ 是一个自监督学习框架,可用于对大量未标记的自然语言文本和分子字符串进行预训练,允许新的、有用的和具有挑战性的类比于传统的视觉语言任务。
Apr, 2022
科学语言模型在分子发现中的作用及其在药物设计、性质预测和反应化学中的优势,以及通过降低科学语言建模领域的门槛来加速化学发现,并提出结合聊天机器人界面和计算化学工具的分子设计愿景。
Sep, 2023
我们提出了一种基于LLama 2架构的单一新颖生成模型LLamol,它在来自多样公共来源的1300万有机化合物的超集上进行了训练,并引入了一种名为“Stochastic Context Learning”的新的训练过程。该模型可以灵活地将三个数字和/或一个令牌序列加入到生成过程中,展示了在单一和多条件有机分子生成方面的熟练处理能力,使得LLamol成为一个易于扩展新属性的全新分子设计工具。
Nov, 2023
通过人机对话,结合大型语言模型的强交互性和泛化性,提出了DrugAssist,一个用于分子优化的交互式模型,成功在单一和多个性能优化方面取得了领先的结果,同时展示了潜在的可迁移性和迭代优化的巨大潜力。
Dec, 2023
通过使用多模态基准ChEBI-20-MM,我们评估了模型与数据模态的兼容性和知识获取,并通过模态转移概率矩阵提供了适用于任务的最合适的模态,同时引入了一种统计可解释的方法,通过局部特征过滤来发现具有上下文特定的知识映射,从而揭示了科学语言建模在分子科学中的学习机制及其推进方法的可能性。
Feb, 2024
人工智能驱动的方法可以大大改善历史上昂贵的药物设计过程,各种生成模型已经广泛使用。特别是对于全新药物设计的生成模型,侧重于完全从零开始创建新的生物化合物,展示了一个有前途的未来方向。通过对该领域的迅速发展以及药物设计过程的固有复杂性,为新研究者进入创造了一个困难的环境。在这项调查中,我们将全新药物设计分类为两个主要主题:小分子和蛋白质生成。在每个主题中,我们确定了各种子任务和应用,突出重要的数据集、基准和模型架构,并比较了顶级模型的性能。我们采取广泛的方法进行人工智能驱动的药物设计,允许在每个子任务中对各种方法进行微观水平的比较,并跨不同领域进行宏观观察。我们讨论了这两个应用之间的并行挑战和方法,并强调了人工智能驱动的全新药物设计的未来方向。所有涵盖的资料的有组织存储库可以在此链接中找到:https://www.example.com
Feb, 2024
提出了一种多约束分子生成大型语言模型(TSMMG),通过提取多个“教师”模型和工具的分子知识构建大量的文本-分子对,实现了生成符合各种文本提示描述的新型分子。TSMMG在生成满足复杂的自然语言描述的化学属性要求的分子方面表现出色,平均分子有效性超过99%,成功比率分别为88.08%,65.27%和61.44%。该模型还具有零-shot测试的适应性,可以生成满足尚未遇到的属性组合的分子,并且可以处理具有不同语言风格的文本输入。TSMMG的知识蒸馏功能对小模型的持续增强起到了积极的作用,并且创新的数据集构建方法有效解决了数据稀缺和质量问题,使其成为药物发现和材料科学领域的有 promising 工具。
Mar, 2024
通过综述多模态分子研究的框架,本文探讨了人工智能在分子科学中的应用,特别关注文本与分子之间的对齐方法以及使用大型语言模型和提示技术进行分子任务的重要应用,同时讨论了该领域的局限性和未来研究的几个有希望的方向。
Mar, 2024
本研究探讨了将领域特定知识整合到提示工程中,以增强科学领域的大型语言模型(LLMs)的性能。通过构建基准数据集,该方法在生物和化学领域中的复杂材料上得到验证,结果表明领域知识提示可以引导LLMs生成更准确和相关的回答,凸显LLMs在科学发现和创新中的潜力。
Apr, 2024