Sep, 2023

SPICED: 具有多个主题和复杂级别的新闻相似性检测数据集

TL;DR利用智能系统检测新闻文章中冗余信息的使用越来越普遍,而新闻媒体的激增为此提供了机会。然而,新闻的异质性可能导致这些系统产生虚假的发现。将新闻相似性数据集按主题分割能提高这些模型的训练效果,但目前缺乏主题特定的数据集。本文提出了一个新的相似新闻数据集 SPICED,包括犯罪与法律、文化与娱乐、灾害与事故、经济与商业、政治与冲突、科学与技术以及体育七个主题。此外,我们还提出了四种不同的方法用于生成新闻对,用于创建专门用于新闻相似性检测任务的数据集。我们使用 MinHash、BERT、SBERT 和 SimCSE 模型对创建的数据集进行了基准测试。