Jun, 2024

新闻通讯:一个包含百年历史新闻的大规模结构化数据库

TL;DR通过深度学习管道,我们重建了一份由成千上万份当地报纸的原始图像扫描组成的数百 TB 文本的归档,并创建了一个包含 1878 年至 1977 年间的 270 万个独特公共领域美国通讯社文章的数据集,该数据集进行了地理参考标记和自定义神经主题分类,识别命名实体并使用新颖的实体消歧模型澄清个人身份。该数据集包含有关百万美国人在一个世纪中阅读的新闻的丰富信息。