LAB-Bench: 测量生物研究语言模型的能力

Jul, 2024

LAB-Bench: 测量生物研究语言模型的能力

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling...

TL;DR评估自然语言处理模型在科学研究中的能力，引入了 Language Agent Biology Benchmark (LAB-Bench)，并且报告了与人类专家生物学研究者进行比较的结果。

Abstract

There is widespread optimism that frontier large language models (LLMs) and llm-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to

发现论文，激发创造

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了SciEval基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval基于Bloom的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管GPT-4在与其他LLMs相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

BioPlanner：自动评估生物学中协议规划的LLMs

科学实验的自动生成协议，通过使用基于伪代码表示的生物协议数据集进行评估，并评估GPT-3和GPT-4在生成科学协议方面的能力和鲁棒性。

Oct, 2023

大型语言模型用于科学研究的跨学科视角

大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制，加强科学研究，例如通过总结大量出版物加速文献回顾，通过自动语法纠正提升代码开发，和优化科学写作过程。然而，LLMs 面临挑战，如依赖庞大且有时偏颇的数据集，以及出于使用而引发的潜在伦理困境。我们对LLMs在不同领域的影响进行重要讨论，从自然科学中帮助模拟复杂生物序列，到社会科学中解析大规模的定性数据。最后，我们提供一种细致的观点，认为LLMs既是科学进步的福音，也是其边界。

Nov, 2023

评估领先的大型语言模型在推理生物学问题中的潜力

该研究评估了领先的大型语言模型（LLMs），包括GPT-4、GPT-3.5、PaLM2、Claude2和SenseNova对概念生物学问题的回答能力。结果表明，GPT-4在逻辑推理方面表现出色，并具备数据分析、假设生成和知识整合等能力，从而有望在生物学研究中发挥作用，但还需要进一步的发展和验证。

Nov, 2023

科学大型语言模型：生物与化学领域综述

大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量，代表着朝着人工通用智能迈出的重要一步。科学LLMs是一个新兴的领域，专门针对促进科学发现进行工程化设计。本文详细调查了科学LLMs，并围绕生物化学领域进行了深入研究，包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合，从模型架构、能力、数据集和评估等方面进行了分析。最后，我们批判性地审查了当前的挑战，并指出了前景广阔的研究方向以及LLMs的进展。通过提供对该领域技术发展的全面概述，本调查力求成为研究人员在科学LLMs复杂领域中的宝贵资源。

Jan, 2024

生物信息学研究中大型语言模型的评价

基于大型语言模型（LLMs）的研究和应用在生物信息学领域有着巨大潜力和效力，该研究通过分析各种关键生物信息学任务，证明了LLMs（如GPT变体）在给定适当提示的情况下可以成功处理大多数任务，同时也分析了在复杂生物信息学任务中的局限性。

Feb, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了SciKnowEval基准，这是一个新颖的框架，从五个渐进的科学知识水平对LLMs进行系统评估：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估LLMs的科学知识的广度和深度，包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为SciKnowEval的两个示例，并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零提示和少量提示策略对20个领先的开源和专有LLMs进行了评估。结果显示，尽管取得了最先进的性能，专有的LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将建立一个全面的标准来评估科学研究和发现中的LLMs，并促进将科学知识与强大的安全意识融入LLMs的发展。数据集和代码可在此https URL上公开获取。

Jun, 2024

科学大型语言模型及其在科学发现中的应用综述

该研究对250个科学领域的大型语言模型进行了全面调研，揭示了它们在架构和预训练技术上的交叉领域和跨模态连接，并总结了每个领域和模态的预训练数据集和评估任务。此外，还研究了大型语言模型在科学发现中的应用。

Jun, 2024

关于利用生物学问题的大型语言模型的推理能力和可访问性的调查

本文讨论了过去十年在生物医学和大型语言模型方面取得的进展，还讨论了自然语言处理技术和工具如何与生物医学相结合。最后，通过引入一系列新的问题和提示，本文旨在对去年一项调查的结果进行扩展，以 quantifying 大型语言模型的推理能力改进以及普通用户所感受到的改进程度。此外，本文还通过要求大型语言模型深入回答开放性问题，扩展了生物文献检索的研究领域。

May, 2024

大型语言模型作为生物医学假设生成器的综合评估

生物医学知识、大型语言模型、假设生成、不确定性与生物医学发现是本研究的关键词和主题，在综合评估了大型语言模型作为生物医学假设生成器的能力后，研究发现大型语言模型可以生成新颖且经过验证的假设，而多智体交互和工具使用可以提高零样本假设生成的性能，并针对外部知识的类型和范围提出了需谨慎考虑的观点，为进一步研究提供了有价值的洞见。

Jul, 2024