刀片：数据驱动科学中语言模型代理的基准测试

Aug, 2024

刀片：数据驱动科学中语言模型代理的基准测试

BLADE: Benchmarking Language Model Agents for Data-Driven Science

Ken Gu, Ruoxi Shang, Ruien Jiang, Keying Kuang, Richard-John Lin...

TL;DR本研究解决了在数据驱动的科学发现中评估语言模型代理的开放性任务的挑战，提出了BLADE基准，通过12个数据集和研究问题自动评估代理的多元分析方法。研究发现，尽管语言模型在分析能力上存在局限，但与数据互动的代理在决策多样性上有所改善，为数据驱动科学的代理评估提供了新的见解。

Abstract

Data-driven scientific discovery requires the iterative integration of scientific domain knowledge, statistical expertise, and an understanding of data semantics to make nuanced analytical decisions, e.g., about which variables, transformations, and statistical models to consider. LM-based agents equipped with planning, memory, and code execution capabilitie

发现论文，激发创造

大型语言模型的紧急自主科研能力

本论文展示了一个结合多个大型语言模型的智能代理系统，可自主设计、规划和执行科学实验，并通过三个不同的实例展示代理的科学研究能力，最为复杂的是成功执行加催化交叉偶联反应。最后，讨论了这种系统的安全影响，并提出了防止滥用的措施。

Apr, 2023

评估大型语言模型作为人工智能研究代理agent

我们提出了一种基于LLM的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了MLAgentBench来评估这些代理的性能与效率。

Oct, 2023

数据科学代理的基准测试

在数据驱动的决策时代，数据分析的复杂性需要数据科学的高级专业知识和工具，而大型语言模型(Large Language Models (LLMs))作为数据科学代理人，有望成为有益的辅助工具。本文介绍了DSEval - 一种新颖的评估范式，以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法，我们简化了数据集准备工作，提高了评估涵盖范围，扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍，并提供了重要的见解，以指导未来领域的进展。

Feb, 2024

DISCOVERYWORLD：开发和评估自动科学发现代理的虚拟环境

开发和评估AI代理的端到端科学推理能力具有挑战性，本文介绍了DISCOVERYWORLD，这是第一个用于开发和评估代理执行完整的新颖科学发现循环能力的虚拟环境，通过包含不同挑战任务，覆盖放射性同位素约会、火箭科学和蛋白质组学等多个主题，鼓励培养一般的发现技能而非特定任务的解决方案，提供了自动度量指标来评估性能，发现在DISCOVERYWORLD任务中，之前在其他环境中表现良好的强基线代理却遇到了困难，这表明DISCOVERYWORLD捕捉到了部分新颖的发现挑战，并可能加速代理的科学发现能力的发展和评估。

Jun, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了SciKnowEval基准，这是一个新颖的框架，从五个渐进的科学知识水平对LLMs进行系统评估：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估LLMs的科学知识的广度和深度，包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为SciKnowEval的两个示例，并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零提示和少量提示策略对20个领先的开源和专有LLMs进行了评估。结果显示，尽管取得了最先进的性能，专有的LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将建立一个全面的标准来评估科学研究和发现中的LLMs，并促进将科学知识与强大的安全意识融入LLMs的发展。数据集和代码可在此https URL上公开获取。

Jun, 2024

DiscoveryBench：基于大型语言模型的数据驱动发现

快速提取、调用函数和数据分析是大型语言模型(LLMs)快速生成代码，从提供的数据集中自动化搜索和验证假设的关键。我们通过DiscoveryBench这一全面的基准测试来评估这个问题，该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力，并为改进这些能力提供有用的资源。

Jul, 2024

LAB-Bench: 测量生物研究语言模型的能力

评估自然语言处理模型在科学研究中的能力，引入了 Language Agent Biology Benchmark (LAB-Bench)，并且报告了与人类专家生物学研究者进行比较的结果。

Jul, 2024

SciCode: 科学家为之策划的研究编码基准

Contemporary language models' progress towards becoming helpful scientific assistants is demonstrated by SciCode, a scientist-curated coding benchmark that examines their capabilities in generating code for solving real scientific research problems.

Jul, 2024

刀锋：用于数据驱动科学的语言模型代理基准

本研究解决了在数据驱动科学中评估语言模型代理的复杂性问题，提出了BLADE这一基准工具来自动评估代理在开放式研究问题上的多面响应。研究发现，尽管语言模型具有广泛的知识，但它们的分析能力往往较为基础，而能够与数据交互的代理则在分析决策的多样性上有所改善。此工作为数据驱动科学中的代理评估提供了新的视角和方法。

Aug, 2024

CORE-Bench：通过计算可复现性代理基准提升已发表研究的可信度

本研究针对科学研究中的计算可复现性问题，通过引入CORE-Bench基准来评估AI代理在此关键任务上的准确性。该基准提供了270个任务，涵盖计算机科学、社会科学和医学等领域，评估结果显示现有代理在最具挑战性的任务上仅达21%的准确率，强调了改进的巨大空间。这项工作有助于提升科学研究的可复现性，并推动未来研究代理的开发。

Sep, 2024