美国故事:历史美国报纸的大规模结构化文本数据集
通过深度学习管道,我们重建了一份由成千上万份当地报纸的原始图像扫描组成的数百 TB 文本的归档,并创建了一个包含 1878 年至 1977 年间的 270 万个独特公共领域美国通讯社文章的数据集,该数据集进行了地理参考标记和自定义神经主题分类,识别命名实体并使用新颖的实体消歧模型澄清个人身份。该数据集包含有关百万美国人在一个世纪中阅读的新闻的丰富信息。
Jun, 2024
基于历史报纸收藏物 Chronicling America 构建的大规模数据集 ChroniclingAmericaQA 是用于问题回答和机器阅读理解任务的独特而有用的资源。
Mar, 2024
本文介绍了基于数字化报纸的复杂布局分析的挑战及其解决方法,其中提供了一个覆盖 21 个州、3000 张真实报纸图像的数据集,探索了多种前沿分割模型和后处理方法,以实现对报纸的数字化,并提供了结构化评估方法。
Feb, 2022
该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集,并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年,包含近 400M 个正面语义相似性对,随着时间跨度的增加,将有助于将对比训练的语义相似性模型应用于各种任务。
Jun, 2023
科学新闻报道的自动生成提高了学术洞察的可访问性,本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析,突出了两者在易读性和简洁性上的差异,并使用先进的文本生成模型对数据集进行了基准测试,为进一步探索科学新闻报道的自动生成奠定了基础。
Mar, 2024
本研究介绍了一种基于在线知识库的数据集 WikiHow,包含超过 230,000 个文章和摘要对,用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。
Oct, 2018
本论文介绍了一份包含近 21 万篇新闻头条的数据集,收集自 HuffPost,并探讨了该数据集在自然语言处理领域的现有和潜在应用,这对于学习真实新闻的语法和语义至关重要,尤其在当前假新闻泛滥的背景下。
Sep, 2022
利用搜索和社交媒体元数据,我们构建了 1.3 百万篇文章及其摘要的 NEWSROOM 数据集,包含不同风格的抽象和抽取策略,为评估该数据集的效用和挑战,我们对该数据集进行了分析和训练现有方法。
Apr, 2018
本文介绍了一种使用 HJDataset 的深度学习方法,可以准确地分析历史日文文档的布局并提取内容。该数据集包含 250,000 多个布局元素注释和基于半规则的方法构建,旨在提供深度学习模型的基准性能分析。
Apr, 2020
本研究介绍了一种基于视觉和文本特征相结合的多模态方法,用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验,结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。
Feb, 2020