Aug, 2024

刀片:数据驱动科学中语言模型代理的基准测试

TL;DR本研究解决了在数据驱动的科学发现中评估语言模型代理的开放性任务的挑战,提出了BLADE基准,通过12个数据集和研究问题自动评估代理的多元分析方法。研究发现,尽管语言模型在分析能力上存在局限,但与数据互动的代理在决策多样性上有所改善,为数据驱动科学的代理评估提供了新的见解。