美国故事：历史美国报纸的大规模结构化文本数据集

Aug, 2023

美国故事：历史美国报纸的大规模结构化文本数据集

American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers

Melissa Dell, Jacob Carlson, Tom Bryan, Emily Silcock, Abhishek Arora...

TL;DR用深度学习方法从报纸图像中提取全文文章，以构建高质量数据集供大型语言模型预训练，达到对历史英语和历史世界知识有更好理解的目的。

Abstract

Existing full text datasets of U.S. public domain newspapers do not recognize the often complex layouts of newspaper scans, and as a result the digitized content scrambles texts from articles, headlines, captions, advertisements, and other layout regions. →

newspaper scans deep learning ocr quality article extraction historical english

发现论文，激发创造

新闻通讯：一个包含百年历史新闻的大规模结构化数据库

通过深度学习管道，我们重建了一份由成千上万份当地报纸的原始图像扫描组成的数百 TB 文本的归档，并创建了一个包含 1878 年至 1977 年间的 270 万个独特公共领域美国通讯社文章的数据集，该数据集进行了地理参考标记和自定义神经主题分类，识别命名实体并使用新颖的实体消歧模型澄清个人身份。该数据集包含有关百万美国人在一个世纪中阅读的新闻的丰富信息。

Jun, 2024

ChroniclingAmericaQA：基于历史美国报纸页面的大规模问题回答数据集

基于历史报纸收藏物 Chronicling America 构建的大规模数据集 ChroniclingAmericaQA 是用于问题回答和机器阅读理解任务的独特而有用的资源。

Mar, 2024

DocBed: 用于复杂版面文档的多阶段 OCR 解决方案

本文介绍了基于数字化报纸的复杂布局分析的挑战及其解决方法，其中提供了一个覆盖 21 个州、3000 张真实报纸图像的数据集，探索了多种前沿分割模型和后处理方法，以实现对报纸的数字化，并提供了结构化评估方法。

Feb, 2022

历史英语语义相似性巨大数据集

该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集，并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年，包含近 400M 个正面语义相似性对，随着时间跨度的增加，将有助于将对比训练的语义相似性模型应用于各种任务。

Jun, 2023

学术复杂性转化为公众叙述：面向科学新闻报道生成的数据集

科学新闻报道的自动生成提高了学术洞察的可访问性，本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析，突出了两者在易读性和简洁性上的差异，并使用先进的文本生成模型对数据集进行了基准测试，为进一步探索科学新闻报道的自动生成奠定了基础。

Mar, 2024

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

新闻分类数据集

本论文介绍了一份包含近 21 万篇新闻头条的数据集，收集自 HuffPost，并探讨了该数据集在自然语言处理领域的现有和潜在应用，这对于学习真实新闻的语法和语义至关重要，尤其在当前假新闻泛滥的背景下。

Sep, 2022

新闻室：一个包含多元提取策略的 130 万篇文章摘要数据集

利用搜索和社交媒体元数据，我们构建了 1.3 百万篇文章及其摘要的 NEWSROOM 数据集，包含不同风格的抽象和抽取策略，为评估该数据集的效用和挑战，我们对该数据集进行了分析和训练现有方法。

Apr, 2018

具有复杂布局的历史日本文件大型数据集

本文介绍了一种使用 HJDataset 的深度学习方法，可以准确地分析历史日文文档的布局并提取内容。该数据集包含 250,000 多个布局元素注释和基于半规则的方法构建，旨在提供深度学习模型的基准性能分析。

Apr, 2020

结合视觉与文本特征进行历史报纸语义分割

本研究介绍了一种基于视觉和文本特征相结合的多模态方法，用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验，结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。

Feb, 2020