May, 2024

CC-GPX: 从 Common Crawl 抽取高质量注释的地理空间数据

TL;DR通过使用 Common Crawl 作为带注释的地理空间数据的来源,该研究论文提出了一个高效的流水线来从 CC 中的 GPX 文件中提取带注释的用户生成轨迹,并生成了包含 1,416 对人工书写描述和 MultiLineString 矢量数据的多模态数据集,该数据集可用于研究人们的室外活动模式、人们谈论自己室外体验的方式,以及轨迹生成或轨迹注释模型的开发。