大规模语言模型用于分子预测任务的基准测试
将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务,本文以细致的方法论探索了该跨学科领域的复杂性和创新,从分子信息如何通过各种表示和标记方法导入 LLMs 开始,将化学 LLMs 分为三个不同的群体,并讨论了将这些输入整合到 LLMs 的方法,然后探讨了应用 LLMs 在化学中的多样化应用,包括在化学任务中的新范例,最后确定了有望的研究方向,包括进一步整合化学知识,持续学习的进展以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
Feb, 2024
使用 Large Language Models (LLMs) 进行零 / 少量数据量的分子分类以及利用由 LLMs 生成的文本解释作为分子表示,可以大大提高分子属性预测的精度。
Jul, 2023
ChemLLM 是第一个专门用于化学领域的大型语言模型,通过使用结构化化学知识构建对话系统,能够在化学学科中顺畅交互完成各种任务,包括名称转换、分子标题和反应预测,并在相关数学和物理任务中展现出出色的适应性。
Feb, 2024
在该研究中,我们通过对大型语言模型在图预测任务的性能进行实验,评估它们是否能有效处理图数据并利用拓扑结构提高性能;通过与专门的图神经网络进行比较,我们对大型语言模型在图分析中的优势和局限性提供了见解,并为将它们应用于图分析提供了进一步的探索方向。
Oct, 2023
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估 LLMs 在基准生物医学任务中的性能。为此,我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知,这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个 LLM 能够胜过其他 LLMs,不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
通过使用多模态基准 ChEBI-20-MM,我们评估了模型与数据模态的兼容性和知识获取,并通过模态转移概率矩阵提供了适用于任务的最合适的模态,同时引入了一种统计可解释的方法,通过局部特征过滤来发现具有上下文特定的知识映射,从而揭示了科学语言建模在分子科学中的学习机制及其推进方法的可能性。
Feb, 2024
DrugLLM 是一个专门用于药物设计的大型语言模型,在训练过程中使用基于群组的分子表示(GMR)来表示分子,通过预测基于过去修饰的下一个分子来学习如何修改分子,在有限的示例基础上生成具有期望特性的新分子,并具有强大的少样本分子生成能力。
May, 2024
我们提供一个对大型语言模型在材料科学研究中的适用性的观点,认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论,并将其与文献中的相关性质和技术联系起来,然后提供了两个案例研究,展示了它们在大规模任务自动化和知识提取中的应用。我们认为,在当前的发展阶段,大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具,而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。
Mar, 2024
大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量,代表着朝着人工通用智能迈出的重要一步。科学 LLMs 是一个新兴的领域,专门针对促进科学发现进行工程化设计。本文详细调查了科学 LLMs,并围绕生物化学领域进行了深入研究,包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合,从模型架构、能力、数据集和评估等方面进行了分析。最后,我们批判性地审查了当前的挑战,并指出了前景广阔的研究方向以及 LLMs 的进展。通过提供对该领域技术发展的全面概述,本调查力求成为研究人员在科学 LLMs 复杂领域中的宝贵资源。
Jan, 2024