Nov, 2024

Spider 2.0:评估语言模型在实际企业文本到SQL工作流程中的表现

TL;DR本研究针对现实企业中的文本到SQL工作流程的复杂性进行了评估,填补了现有研究的不足。我们提出了Spider 2.0评估框架,包含632个现实世界的文本到SQL工作流问题,揭示了语言模型在处理复杂SQL工作环境中的不足之处。研究表明,现有模型在真实企业应用中的表现仍需显著提升,以实现智能自主的代码生成。