Feb, 2024

数据科学代理的基准测试

TL;DR在数据驱动的决策时代,数据分析的复杂性需要数据科学的高级专业知识和工具,而大型语言模型 (Large Language Models (LLMs)) 作为数据科学代理人,有望成为有益的辅助工具。本文介绍了 DSEval - 一种新颖的评估范式,以及一系列针对评估这些代理人在整个数据科学生命周期中性能的创新基准。通过引入新颖的自举注释方法,我们简化了数据集准备工作,提高了评估涵盖范围,扩大了基准的综合性。我们的研究结果揭示了普遍存在的障碍,并提供了重要的见解,以指导未来领域的进展。