NoticIA:一份西班牙语的点击诱骗文章摘要数据集
本研究介绍了一种基于在线知识库的数据集 WikiHow,包含超过 230,000 个文章和摘要对,用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。
Oct, 2018
本文通过针对 2019 年阿根廷总统大选主要媒体发布的 1,976 个题名候选人的情感数据集,利用预训练的语言模型和最先进的分类算法,解决了特定领域新闻标题情感分析的问题,并公开了数据和模型。
Aug, 2022
Babel Briefings 是一个新颖的数据集,包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题,涵盖了 30 种语言和 54 个地点,其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究,是用于训练或评估语言模型的高质量数据集,同时也提供了一个简单易用的文章集合,用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类,我们展示了该数据集所支持的分析功能,并可视化事件的 “事件签名”,展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取,并附带 GitHub 代码。
Mar, 2024
通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集,应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调,我们提出的新模型作为该数据集的一个良好基准,优于传统神经网络模型(LSTM、GRU、CNN)和基于语言特征的模型,这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。
Nov, 2023
通过文本摘要总结内容,并根据生成的摘要与内容之间的相似性进行 clickbait 检测,本文提出了一种基于提示调整的 clickbait 检测方法,该方法通过预训练语言模型产生高质量的新闻摘要,并将头条和新生成的摘要作为提示调整的输入,采用各种策略结合外部知识以提高 clickbait 检测性能。在知名 clickbait 检测数据集上的广泛实验表明,我们的方法达到了最先进的性能。
Apr, 2024
利用搜索和社交媒体元数据,我们构建了 1.3 百万篇文章及其摘要的 NEWSROOM 数据集,包含不同风格的抽象和抽取策略,为评估该数据集的效用和挑战,我们对该数据集进行了分析和训练现有方法。
Apr, 2018
为了增加收入,新闻网站经常使用虚假新闻标题,诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告,并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。此外,我们用 4 种机器学习方法进行实验,从手工模型到循环和基于转换器的神经网络,以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中,我们提出了一种新颖的基于 BERT 的对比学习模型,该模型学习将新闻标题和内容编码成一个深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。
Oct, 2023
本文介绍了 Gazeta 数据集,它是用于俄语新闻报道的第一个自动文本摘要数据集,并对其进行了扩展性和抽象性模型的基准测试和评估。结果表明,该数据集适用于俄语文本摘要任务,并且预训练的 mBART 模型可用于俄语文本摘要。
Jun, 2020
本研究提出了一种使用深度学习方法来检测 2017 年 Clickbait Challenge 数据集中的 clickbaits 的模型,同时利用数据分析和可视化技术探索和发现数据集中的信息。该模型在均方误差方面在 Clickbait Challenge 2017 中获得了第一名。
Jun, 2018
此研究提供了一个包含 18 个多模式孟加拉语 YouTube 标题党数据集,其中包括来自 58 个孟加拉语 YouTube 频道的 253,070 个数据点。这是迄今为止最大且最强大的孟加拉语标题党语料库,可用于自然语言处理和数据科学研究,以推进低资源语言中标题党现象的建模。它的多模式特性允许通过内容、用户互动和语言维度进行全面分析,以开发具有跨语言应用的更复杂的检测方法。
Oct, 2023