SciCode: 科学家为之策划的研究编码基准

Jul, 2024

SciCode: 科学家为之策划的研究编码基准

SciCode: A Research Coding Benchmark Curated by Scientists

Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan...

TL;DRContemporary language models' progress towards becoming helpful scientific assistants is demonstrated by SciCode, a scientist-curated coding benchmark that examines their capabilities in generating code for solving real scientific research problems.

Abstract

Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real

发现论文，激发创造

SAIBench：科学人工智能基准测试

该研究提出了一种名为SAIBench的系统，它使用专业语言SAIL分离科研问题，人工智能模型，排名标准和软硬件配置，以便在不同学科领域评估人工智能解决方案并提供低摩擦度入门。

Jun, 2022

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型(LLM)在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性LLM进行了深入的基准研究，采用多种提示策略。结果表明，当前LLM的表现不尽如人意，综合得分仅为35.80%。此外，通过详细的用户研究，我们将LLM的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计SciBench将催生LLM的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

DARWIN 系列：自然科学领域专用大型语言模型

使用开源的LLM构建DARWIN系列，利用人工智能实现自动化实验，自动生成科学指令，为自然科学领域带来新的能力和加速和丰富的发现过程，并在多个科学任务上取得前沿成果。

Aug, 2023

SciGLM: 自反射训练科学语言模型的指令注释和调整

SciGLM是一套科学语言模型，通过自我反思指令注释框架解决科学领域的数据稀缺性问题，并使用SciInstruct数据集进行Fine-tuning，提高了科学和数学推理的能力。

Jan, 2024

SciAgent：科学推理的工具增强语言模型

通过在LLMs中引入可扩展的工具集，将研究重点从追求全知问题解决者转变为专业的工具使用者，以增加科学推理对于LLMs的可行性，并构建了一个名为MathFunc的涵盖了超过30,000个样本和约6,000个工具的工具增强训练语料库，在此基础上开发了SciAgent用于科学问题的工具检索、理解和使用，并构建了跨越五个科学领域的基准测试SciToolBench来评估LLMs在工具协助下的能力，通过SciToolBench上的大量实验证实了SciAgent的有效性，特别是SciAgent-Mistral-7B在绝对准确率上比同样大小的其他LLMs高出13%以上，此外，SciAgent-DeepMath-7B的性能远远优于ChatGPT。

Feb, 2024

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入CS-Bench，这是第一个专门用于评估LLM在计算机科学领域性能的双语（中英文）基准，包括大约5K个精心策划的测试样本，涵盖计算机科学的4个关键领域的26个子领域，包括各种任务形式和知识推理的划分。利用CS-Bench，我们对30多个主流LLM进行了全面评估，揭示了CS性能与模型规模之间的关系，并定量分析了现有LLM失败的原因，并强调了知识补充和CS特定推理等改进方向。进一步的跨能力实验显示LLM在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家LLM在几个CS子领域也表现出强大的性能。展望未来，我们预见CS-Bench将成为LLM在CS领域应用的基石，并为评估LLM的多样化推理能力开辟新的途径。CS-Bench的数据和评估代码可在此https URL上找到。

Jun, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了SciKnowEval基准，这是一个新颖的框架，从五个渐进的科学知识水平对LLMs进行系统评估：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估LLMs的科学知识的广度和深度，包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为SciKnowEval的两个示例，并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零提示和少量提示策略对20个领先的开源和专有LLMs进行了评估。结果显示，尽管取得了最先进的性能，专有的LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将建立一个全面的标准来评估科学研究和发现中的LLMs，并促进将科学知识与强大的安全意识融入LLMs的发展。数据集和代码可在此https URL上公开获取。

Jun, 2024

LAB-Bench: 测量生物研究语言模型的能力

评估自然语言处理模型在科学研究中的能力，引入了 Language Agent Biology Benchmark (LAB-Bench)，并且报告了与人类专家生物学研究者进行比较的结果。

Jul, 2024

AI科学家：迈向完全自动化的开放式科学发现

本研究针对人工智能在科学发现中的应用进行了探索，提出了一个全面的框架，使前沿大型语言模型能够独立执行科学研究并传达其发现。研究表明，AI科学家能够以低于15美元的成本生成并完善科学论文，其成果可达顶级机器学习会议的接受标准，标志着科学发现新纪元的开始。

Aug, 2024

人工智能科学家：迈向完全自动化的开放式科学发现

本研究旨在解决当前科学研究中人工智能参与程度不足的问题，提出了一个全面框架，使前沿的大型语言模型能够独立进行科学研究并沟通其发现。研究结果表明，AI科学家能够生成新颖的研究想法并撰写完整的科学论文，其成果在顶级机器学习会议上达到了接收标准，标志着科学发现新的时代的开始。

Aug, 2024