Jun, 2024

在 Common Crawl 语料库中量化地理空间

TL;DR分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率,发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息,为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。