MuseCL: 基于多语义对比学习预测城市社会经济指标
本文提出了一种无监督的 Urban2Vec 多模态框架,利用街景图像和兴趣点数据来学习社区嵌入,使得该模型在下游预测任务中取得了比基线模型更好的性能,并在三个美国大都市地区的广泛实验中展现了模型的可解释性、泛化能力和在社区相似性分析中的价值。
Jan, 2020
本篇论文介绍了Placepedia这个包含超过240k个景点及其约35M张照片的大规模景点数据集。通过多方面的标注,模型的研究者们可以使用该数据集开展包括多层次景点识别和城市嵌入等多个方面的研究探索,建立视觉观测和社会文化内涵之间的联系。
Jul, 2020
提出了一种名为Region2Vec的多图表示学习框架,用于城市区域分析,可以捕捉地理上下文信号和区域间的联系,同时用于表示区域内部信息的知识图谱。使用编码器-解码器多图融合模块来联合学习综合表示。在现实世界数据集上的实验证明,Region2Vec可以在三个应用程序中使用,并优于所有其他基线。特别地,Region2Vec在具有高方差社会经济属性的区域中的表现优于先前的研究。
Feb, 2022
提出一种基于知识图谱(KG)以及知识注入对比学习(KnowCL)模型,能够有效地促进城市图像的表征学习和预测,并结合卫星和街景影像进行可持续发展目标的预测,相较基线模型预测精度有超过30%的提高。
Feb, 2023
通过引入文本模态,利用大型语言模型(LLMs)的能力,本文介绍了一种集成文本模态于城市影像特征建模的框架UrbanCLIP,并以四个中国主要大都市为例,对三个城市指标进行预测,相较于最先进的方法,平均提升了6.1%的R^2表现。
Oct, 2023
本文提出了一种利用多模态数据学习城市区域表示的多视图对比预测模型(ReCP),该模型利用兴趣点和人类流动数据中的多个信息视图,通过内视图学习模块和相互视图学习模块实现对城市区域的一致性和连贯性表示,实验证明该模型在城市区域表征学习中明显优于现有基线方法。
Dec, 2023
计算机科学场景理解中存在社会经济偏见,建议采用更具包容性和代表性的训练数据集,以减少偏见并确保计算机视觉技术的公平性和更均等的社会受益。
Jan, 2024
我们在本文中提出了一种新颖的视觉-语言预训练模型(UrbanVLP),该模型能够无缝地整合来自宏观(卫星)和微观(街景)层面的多粒度信息,克服了先前预训练模型的局限性,提高了城市规划中的可解释性。我们的UrbanVLP模型还引入了自动生成文字描述和校准,通过生成高质量的城市图像描述,提升了在下游应用中的可解释性。大量的实验验证了UrbanVLP在六个社会经济任务上的卓越性能,我们还部署了一个网络平台验证其实用性。
Mar, 2024
利用深度学习从卫星图像中预测社会经济指标已成为一个越来越受欢迎的研究方向,我们研究了额外特定任务对比损失的表示学习与后期概念可解释性在社会经济研究中的相互关系,并通过两个不同地理位置和任务的结果表明,任务特定预训练对潜在空间嵌入按照社会经济结果的连续排序有所影响,从而提高了模型的可解释性。进一步地,我们阐述了分析模型对社会经济结果区间的概念敏感性如何为城市研究提供新的见解。
Apr, 2024
该研究探讨了视觉-语言模型中的文化和社会经济多样性,研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象,并提出了一种改进方法以提高文化多样性。
May, 2024