Mar, 2024

UrbanVLP:城市指标预测的多粒度视觉语言预训练基础模型

TL;DR我们在本文中提出了一种新颖的视觉-语言预训练模型(UrbanVLP),该模型能够无缝地整合来自宏观(卫星)和微观(街景)层面的多粒度信息,克服了先前预训练模型的局限性,提高了城市规划中的可解释性。我们的UrbanVLP模型还引入了自动生成文字描述和校准,通过生成高质量的城市图像描述,提升了在下游应用中的可解释性。大量的实验验证了UrbanVLP在六个社会经济任务上的卓越性能,我们还部署了一个网络平台验证其实用性。