Aug, 2023

美国故事:历史美国报纸的大规模结构化文本数据集

TL;DR用深度学习方法从报纸图像中提取全文文章,以构建高质量数据集供大型语言模型预训练,达到对历史英语和历史世界知识有更好理解的目的。