Feb, 2025
DataSciBench:数据科学的LLM代理基准
DataSciBench: An LLM Agent Benchmark for Data Science
TL;DR本研究提出了DataSciBench,这是一个全面评估大型语言模型(LLM)在数据科学领域能力的基准。与以往仅关注单一任务的基准不同,DataSciBench采用了更广泛且经过精心策划的自然和挑战性提示,并通过半自动化流程生成基准真相和评估指标。实验结果显示,API模型在所有指标上均优于开源模型,且Deepseek-Coder-33B-Instruct在开源模型中表现最佳。