Jul, 2024

DiscoveryBench:基于大型语言模型的数据驱动发现

TL;DR快速提取、调用函数和数据分析是大型语言模型(LLMs)快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过DiscoveryBench这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。