科学语言建模：大型语言模型在分子科学中的定量评价

Feb, 2024

科学语言建模：大型语言模型在分子科学中的定量评价

Scientific Language Modeling: A Quantitative Review of Large Language Models in Molecular Science

Pengfei Liu, Jun Tao, Zhixiang Ren

TL;DR通过使用多模态基准ChEBI-20-MM，我们评估了模型与数据模态的兼容性和知识获取，并通过模态转移概率矩阵提供了适用于任务的最合适的模态，同时引入了一种统计可解释的方法，通过局部特征过滤来发现具有上下文特定的知识映射，从而揭示了科学语言建模在分子科学中的学习机制及其推进方法的可能性。

Abstract

Efficient molecular modeling and design are crucial for the discovery and exploration of novel molecules, and the incorporation of deep learning methods has revolutionized this field. In particular, →

发现论文，激发创造

利用多任务语言建模统一分子和文本表示

提出了一种多领域、多任务的语言模型，能够处理化学和自然语言，并共享模型参数来优化实验室操作和科学发现加速。

Jan, 2023

巨型语言模型能够提升分子属性预测吗？

使用 Large Language Models (LLMs) 进行零/少量数据量的分子分类以及利用由LLMs生成的文本解释作为分子表示，可以大大提高分子属性预测的精度。

Jul, 2023

GIT-Mol: 分子科学的多模态大型语言模型与图形、图像和文本

通过引入GIT-Mol和GIT-Former，我们开发了一种创新的任意类型到语言的分子翻译策略，并在分子字幕生成方面实现了10%-15%的改进，在属性预测方面提高了5%-10%的准确性，并且在分子生成有效性方面提高了20%。

Aug, 2023

分子发现中的语言模型

科学语言模型在分子发现中的作用及其在药物设计、性质预测和反应化学中的优势，以及通过降低科学语言建模领域的门槛来加速化学发现，并提出结合聊天机器人界面和计算化学工具的分子设计愿景。

Sep, 2023

用于科学综合、推理和解释的大型语言模型

使用大型语言模型进行科学综合、推理和解释，通过从科学文献综合知识，将其应用于预测分子属性等任务，提高了当前机器学习系统的性能，并能解释其预测结果，将加速科学发现的进程。

Oct, 2023

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了LLM在科学发现环境中的性能，重点关注GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估GPT-4在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了GPT-4的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Nov, 2023

科学大型语言模型：生物与化学领域综述

大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量，代表着朝着人工通用智能迈出的重要一步。科学LLMs是一个新兴的领域，专门针对促进科学发现进行工程化设计。本文详细调查了科学LLMs，并围绕生物化学领域进行了深入研究，包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合，从模型架构、能力、数据集和评估等方面进行了分析。最后，我们批判性地审查了当前的挑战，并指出了前景广阔的研究方向以及LLMs的进展。通过提供对该领域技术发展的全面概述，本调查力求成为研究人员在科学LLMs复杂领域中的宝贵资源。

Jan, 2024

从词语到分子: 化学中大型语言模型的调查

将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务，本文以细致的方法论探索了该跨学科领域的复杂性和创新，从分子信息如何通过各种表示和标记方法导入LLMs开始，将化学LLMs分为三个不同的群体，并讨论了将这些输入整合到LLMs的方法，然后探讨了应用LLMs在化学中的多样化应用，包括在化学任务中的新范例，最后确定了有望的研究方向，包括进一步整合化学知识，持续学习的进展以及模型可解释性的改进，为该领域的突破性发展铺平了道路。

Feb, 2024

大规模语言模型用于分子预测任务的基准测试

LLMs在分子预测任务中的表现相对较弱，而与机器学习模型合作使用时，LLMs有潜力提升模型性能。

Mar, 2024

科学大型语言模型及其在科学发现中的应用综述

该研究对250个科学领域的大型语言模型进行了全面调研，揭示了它们在架构和预训练技术上的交叉领域和跨模态连接，并总结了每个领域和模态的预训练数据集和评估任务。此外，还研究了大型语言模型在科学发现中的应用。

Jun, 2024