历史英语语义相似性巨大数据集

Jun, 2023

A Massive Scale Semantic Similarity Dataset of Historical English

Emily Silcock, Melissa Dell

TL;DR该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集，并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年，包含近 400M 个正面语义相似性对，随着时间跨度的增加，将有助于将对比训练的语义相似性模型应用于各种任务。

Abstract

A diversity of tasks use language models trained on semantic similarity data. While there are a variety of datasets that capture semantic similarity, they are either constructed from modern web data or are relati

发现论文，激发创造

新闻文章框架的多语言相似度数据集

理解新闻文章的写作框架对解决社会问题至关重要，因此引起了通信研究领域的显着关注。我们介绍了一个扩展版的大型标记新闻文章数据集，包含 16,687 个新标记的配对。通过对新闻文章进行成对比较，我们的方法解放了传统新闻框架分析研究中手动识别框架类别的工作。该新闻文章相似性数据集是迄今为止最广泛的跨语言新闻文章数据集，涵盖 10 种语言、26,555 个标记的新闻文章配对。每个数据点根据详细的代码手册进行了细致的注释，采用人在循环框架下进行。应用示例展示了它在揭示全球新闻报道中的国家社群、揭示新闻媒体偏见以及定量化与新闻创作相关因素方面的潜力。我们预计这个新闻相似性数据集将扩宽我们对媒体生态系统的认识，包括对事件和观点在国家、地点、语言和其他社会构建中的新闻报道。通过这样做，它可以推动社会科学研究和应用方法的进步，对我们的社会产生深远影响。

May, 2024

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

美国故事：历史美国报纸的大规模结构化文本数据集

用深度学习方法从报纸图像中提取全文文章，以构建高质量数据集供大型语言模型预训练，达到对历史英语和历史世界知识有更好理解的目的。

Aug, 2023

新闻通讯：一个包含百年历史新闻的大规模结构化数据库

通过深度学习管道，我们重建了一份由成千上万份当地报纸的原始图像扫描组成的数百 TB 文本的归档，并创建了一个包含 1878 年至 1977 年间的 270 万个独特公共领域美国通讯社文章的数据集，该数据集进行了地理参考标记和自定义神经主题分类，识别命名实体并使用新颖的实体消歧模型澄清个人身份。该数据集包含有关百万美国人在一个世纪中阅读的新闻的丰富信息。

Jun, 2024

GoodNewsEveryone：一份新闻标题语料库，涵盖情感、语义角色和读者感知的注释

通过众包的方式，我们发布了一个数据集，包括了 5000 个英文新闻标题的情感、情感体验者和文本线索、相关情感原因和目标，以及读者对标题情感的感知；在此基础上，我们提出了一个多阶段的注释程序，开发了语义角色结构自动预测任务的基线，并讨论了结果，此数据集支持进一步情感分类、情感强度预测、情感原因检验和定性研究。

Dec, 2019

SPICED: 具有多个主题和复杂级别的新闻相似性检测数据集

利用智能系统检测新闻文章中冗余信息的使用越来越普遍，而新闻媒体的激增为此提供了机会。然而，新闻的异质性可能导致这些系统产生虚假的发现。将新闻相似性数据集按主题分割能提高这些模型的训练效果，但目前缺乏主题特定的数据集。本文提出了一个新的相似新闻数据集 SPICED，包括犯罪与法律、文化与娱乐、灾害与事故、经济与商业、政治与冲突、科学与技术以及体育七个主题。此外，我们还提出了四种不同的方法用于生成新闻对，用于创建专门用于新闻相似性检测任务的数据集。我们使用 MinHash、BERT、SBERT 和 SimCSE 模型对创建的数据集进行了基准测试。

Sep, 2023

来自全球的多语种新闻标题数据集

Babel Briefings 是一个新颖的数据集，包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题，涵盖了 30 种语言和 54 个地点，其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究，是用于训练或评估语言模型的高质量数据集，同时也提供了一个简单易用的文章集合，用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类，我们展示了该数据集所支持的分析功能，并可视化事件的 “事件签名”，展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取，并附带 GitHub 代码。

Mar, 2024

自然语言处理和心语言学的桥梁：计算基础的巴斯克语和西班牙语语义相似性和关联数据集

本文介绍了一个基于 NLP 资源的语义相似性数据集，用于填补心理语言学研究中的空白，并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。

Apr, 2023

句子语义相关的原因：一个文本相关性数据集和实证研究

本文介绍一个新的数据集 ——STR-2022，该数据集包含 5,500 个英文句子对，用比较注释框架手动注释，得出精细的分数，用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。

Oct, 2021

新闻历史回顾：利用语义搜索连接过去与现在

使用 News Deja Vu 这一语义搜索工具，借助 Transformer 大型语言模型和双编码器方法，识别与现代新闻查询最相似的历史新闻文章，以揭示看似独特于现在的现象在历史上的多样性，为社会科学家提供了一个强大工具，帮助他们探索人们对过去和现在的感知之间的相似之处。

Jun, 2024