科学语言建模:大型语言模型在分子科学中的定量评价
使用 Large Language Models (LLMs) 进行零/少量数据量的分子分类以及利用由LLMs生成的文本解释作为分子表示,可以大大提高分子属性预测的精度。
Jul, 2023
通过引入GIT-Mol和GIT-Former,我们开发了一种创新的任意类型到语言的分子翻译策略,并在分子字幕生成方面实现了10%-15%的改进,在属性预测方面提高了5%-10%的准确性,并且在分子生成有效性方面提高了20%。
Aug, 2023
科学语言模型在分子发现中的作用及其在药物设计、性质预测和反应化学中的优势,以及通过降低科学语言建模领域的门槛来加速化学发现,并提出结合聊天机器人界面和计算化学工具的分子设计愿景。
Sep, 2023
使用大型语言模型进行科学综合、推理和解释,通过从科学文献综合知识,将其应用于预测分子属性等任务,提高了当前机器学习系统的性能,并能解释其预测结果,将加速科学发现的进程。
Oct, 2023
近年来,在自然语言处理方面取得突破性进展的大型语言模型(LLM)的出现,展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中,我们深入研究了LLM在科学发现环境中的性能,重点关注GPT-4,这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计和偏微分方程(PDE)等多个科学领域。评估GPT-4在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估,提供对模型理解复杂科学概念和关系的定性洞见,以及偶尔的基准测试,定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4在各种科学应用中展示出有希望的潜力,显示出处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了GPT-4的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
Nov, 2023
大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量,代表着朝着人工通用智能迈出的重要一步。科学LLMs是一个新兴的领域,专门针对促进科学发现进行工程化设计。本文详细调查了科学LLMs,并围绕生物化学领域进行了深入研究,包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合,从模型架构、能力、数据集和评估等方面进行了分析。最后,我们批判性地审查了当前的挑战,并指出了前景广阔的研究方向以及LLMs的进展。通过提供对该领域技术发展的全面概述,本调查力求成为研究人员在科学LLMs复杂领域中的宝贵资源。
Jan, 2024
将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务,本文以细致的方法论探索了该跨学科领域的复杂性和创新,从分子信息如何通过各种表示和标记方法导入LLMs开始,将化学LLMs分为三个不同的群体,并讨论了将这些输入整合到LLMs的方法,然后探讨了应用LLMs在化学中的多样化应用,包括在化学任务中的新范例,最后确定了有望的研究方向,包括进一步整合化学知识,持续学习的进展以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
Feb, 2024
该研究对250个科学领域的大型语言模型进行了全面调研,揭示了它们在架构和预训练技术上的交叉领域和跨模态连接,并总结了每个领域和模态的预训练数据集和评估任务。此外,还研究了大型语言模型在科学发现中的应用。
Jun, 2024