Jun, 2024

CityBench: 评估大型语言模型作为世界模型的能力

TL;DR在这篇论文中,我们提出了 CityBench 作为第一个用于评估大规模语言模型在城市领域能力的系统性评估基准,通过构建 CitySim 来整合多源数据并模拟细粒度的城市动态,设计了 7 个任务用于评估 LLMs 作为城市规模世界模型在感知理解和决策制定方面的能力,在 13 个城市的 13 个知名 LLMs 上进行了广泛实验,结果表明 CityBench 的可扩展性和效果,并对未来城市领域 LLMs 的发展提供了启示。