CORE-Bench：通过计算可复现性代理基准提升已发表研究的可信度

Sep, 2024

CORE-Bench：通过计算可复现性代理基准提升已发表研究的可信度

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan

TL;DR本研究针对科学研究中的计算可复现性问题，通过引入CORE-Bench基准来评估AI代理在此关键任务上的准确性。该基准提供了270个任务，涵盖计算机科学、社会科学和医学等领域，评估结果显示现有代理在最具挑战性的任务上仅达21%的准确率，强调了改进的巨大空间。这项工作有助于提升科学研究的可复现性，并推动未来研究代理的开发。

Abstract

AI Agents have the potential to aid users on a variety of consequential tasks, including conducting Scientific Research. To spur the development of useful agents, we need benchmarks that are challenging, but more

发现论文，激发创造

一项用于估计发表作品置信度的合成预测市场

本研究开发了一种合成预测市场来评估社会与行为科学文献中已发表声明的可信度，并使用一系列已知的复制项目来展示该系统，并建议此项工作为使用人工智能进行同行评审奠定了基础。

Dec, 2021

SAIBench：科学人工智能基准测试

该研究提出了一种名为SAIBench的系统，它使用专业语言SAIL分离科研问题，人工智能模型，排名标准和软硬件配置，以便在不同学科领域评估人工智能解决方案并提供低摩擦度入门。

Jun, 2022

评估大型语言模型作为人工智能研究代理agent

我们提出了一种基于LLM的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了MLAgentBench来评估这些代理的性能与效率。

Oct, 2023

DCA-Bench: 数据集整理代理的基准测试

利用大型语言模型代理，提出了一个评估数据集筛选能力的基准测试，该基准测试使用真实世界的数据集问题，并通过自动化评估器与人工评估对齐可靠，以进一步探索和创新应用大型语言模型于现实世界的数据集处理。

Jun, 2024

BioKGBench：生物医学科学AI代理的知识图检测基准

在追求生物医学科学人工智能领域中，一种常见方法是构建由大型语言模型驱动的副驾驶代理，然而如何从AI科学家的角度精确评估这些代理系统目前尚未被充分探索。我们通过模仿科学家最重要的能力之一，即理解文献，提出了一种新的评估基准BioKGBench，将其与传统的评估基准进行对比，并引入了一个新的代理任务KGCheck，通过知识图问答和领域相关的检索增强生成技术来识别现有大规模知识图数据库中的事实错误。我们的研究发现当前最先进的代理系统在我们的基准测试中要么失败，要么表现低劣。我们提出了一个简单而有效的基准系统BKGAgent，并在常用的知识图上发现了90多个事实错误，从而展示了我们方法的效果。

Jun, 2024

LAB-Bench: 测量生物研究语言模型的能力

评估自然语言处理模型在科学研究中的能力，引入了 Language Agent Biology Benchmark (LAB-Bench)，并且报告了与人类专家生物学研究者进行比较的结果。

Jul, 2024

AI科学家：迈向完全自动化的开放式科学发现

本研究针对人工智能在科学发现中的应用进行了探索，提出了一个全面的框架，使前沿大型语言模型能够独立执行科学研究并传达其发现。研究表明，AI科学家能够以低于15美元的成本生成并完善科学论文，其成果可达顶级机器学习会议的接受标准，标志着科学发现新纪元的开始。

Aug, 2024

人工智能科学家：迈向完全自动化的开放式科学发现

本研究旨在解决当前科学研究中人工智能参与程度不足的问题，提出了一个全面框架，使前沿的大型语言模型能够独立进行科学研究并沟通其发现。研究结果表明，AI科学家能够生成新颖的研究想法并撰写完整的科学论文，其成果在顶级机器学习会议上达到了接收标准，标志着科学发现新的时代的开始。

Aug, 2024

刀锋：用于数据驱动科学的语言模型代理基准

本研究解决了在数据驱动科学中评估语言模型代理的复杂性问题，提出了BLADE这一基准工具来自动评估代理在开放式研究问题上的多面响应。研究发现，尽管语言模型具有广泛的知识，但它们的分析能力往往较为基础，而能够与数据交互的代理则在分析决策的多样性上有所改善。此工作为数据驱动科学中的代理评估提供了新的视角和方法。

Aug, 2024

刀片：数据驱动科学中语言模型代理的基准测试

本研究解决了在数据驱动的科学发现中评估语言模型代理的开放性任务的挑战，提出了BLADE基准，通过12个数据集和研究问题自动评估代理的多元分析方法。研究发现，尽管语言模型在分析能力上存在局限，但与数据互动的代理在决策多样性上有所改善，为数据驱动科学的代理评估提供了新的见解。

Aug, 2024