NoticIA：一份西班牙语的点击诱骗文章摘要数据集

Apr, 2024

NoticIA：一份西班牙语的点击诱骗文章摘要数据集

NoticIA: A Clickbait Article Summarization Dataset in Spanish

Iker García-Ferrero, Begoña Altuna

TL;DRNoticIA 是一项数据集，其中包含 850 篇西班牙新闻文章，配有高质量的单句生成摘要，用于评估大型语言模型对西班牙文本的理解能力，并用于训练 ClickbaitFighter 模型，该模型在这一任务上达到接近人类水平的表现。

Abstract

We present noticia, a dataset consisting of 850 spanish news articles featuring prominent clickbait headlines, each paired with high-quali

noticia spanish news articles clickbait headlines generative summarizations text comprehension

发现论文，激发创造

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

一份用于政治标题目标情感分析的西班牙数据集

本文通过针对 2019 年阿根廷总统大选主要媒体发布的 1,976 个题名候选人的情感数据集，利用预训练的语言模型和最先进的分类算法，解决了特定领域新闻标题情感分析的问题，并公开了数据和模型。

Aug, 2022

来自全球的多语种新闻标题数据集

Babel Briefings 是一个新颖的数据集，包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题，涵盖了 30 种语言和 54 个地点，其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究，是用于训练或评估语言模型的高质量数据集，同时也提供了一个简单易用的文章集合，用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类，我们展示了该数据集所支持的分析功能，并可视化事件的 “事件签名”，展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取，并附带 GitHub 代码。

Mar, 2024

BanglaBait: 孟加拉语点击诱饵数据集上的半监督对抗性方法

通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集，应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调，我们提出的新模型作为该数据集的一个良好基准，优于传统神经网络模型（LSTM、GRU、CNN）和基于语言特征的模型，这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。

Nov, 2023

通过文本摘要进行标题点击热点检测的提示微调

通过文本摘要总结内容，并根据生成的摘要与内容之间的相似性进行 clickbait 检测，本文提出了一种基于提示调整的 clickbait 检测方法，该方法通过预训练语言模型产生高质量的新闻摘要，并将头条和新生成的摘要作为提示调整的输入，采用各种策略结合外部知识以提高 clickbait 检测性能。在知名 clickbait 检测数据集上的广泛实验表明，我们的方法达到了最先进的性能。

Apr, 2024

新闻室：一个包含多元提取策略的 130 万篇文章摘要数据集

利用搜索和社交媒体元数据，我们构建了 1.3 百万篇文章及其摘要的 NEWSROOM 数据集，包含不同风格的抽象和抽取策略，为评估该数据集的效用和挑战，我们对该数据集进行了分析和训练现有方法。

Apr, 2018

一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测：一份罗马尼亚新闻文章的点击诱饵语料库

为了增加收入，新闻网站经常使用虚假新闻标题，诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告，并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库（RoCliCo），包括 8,313 个新闻样本，手动注释了点击诱骗和非点击诱骗标签。此外，我们用 4 种机器学习方法进行实验，从手工模型到循环和基于转换器的神经网络，以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中，我们提出了一种新颖的基于 BERT 的对比学习模型，该模型学习将新闻标题和内容编码成一个深度度量空间，使得非点击诱骗新闻的标题和内容具有高余弦相似度，而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。

Oct, 2023

自动摘要俄罗斯新闻的数据集

本文介绍了 Gazeta 数据集，它是用于俄语新闻报道的第一个自动文本摘要数据集，并对其进行了扩展性和抽象性模型的基准测试和评估。结果表明，该数据集适用于俄语文本摘要任务，并且预训练的 mBART 模型可用于俄语文本摘要。

Jun, 2020

使用神经网络识别网络新闻中的标题党

本研究提出了一种使用深度学习方法来检测 2017 年 Clickbait Challenge 数据集中的 clickbaits 的模型，同时利用数据分析和可视化技术探索和发现数据集中的信息。该模型在均方误差方面在 Clickbait Challenge 2017 中获得了第一名。

Jun, 2018

BaitBuster-Bangla: 孟加拉语点击标题检测的多特征和多模态分析全面数据集

此研究提供了一个包含 18 个多模式孟加拉语 YouTube 标题党数据集，其中包括来自 58 个孟加拉语 YouTube 频道的 253,070 个数据点。这是迄今为止最大且最强大的孟加拉语标题党语料库，可用于自然语言处理和数据科学研究，以推进低资源语言中标题党现象的建模。它的多模式特性允许通过内容、用户互动和语言维度进行全面分析，以开发具有跨语言应用的更复杂的检测方法。

Oct, 2023