新闻分类数据集

Sep, 2022

News Category Dataset

Rishabh Misra

TL;DR本论文介绍了一份包含近 21 万篇新闻头条的数据集，收集自 HuffPost，并探讨了该数据集在自然语言处理领域的现有和潜在应用，这对于学习真实新闻的语法和语义至关重要，尤其在当前假新闻泛滥的背景下。

Abstract

People rely on news to know what is happening around the world and inform their daily lives. In today's world, when the proliferation of fake news is rampant, having a large-scale and high-quality source of authe

news fake news nlp dataset huffpost

发现论文，激发创造

学术复杂性转化为公众叙述：面向科学新闻报道生成的数据集

科学新闻报道的自动生成提高了学术洞察的可访问性，本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析，突出了两者在易读性和简洁性上的差异，并使用先进的文本生成模型对数据集进行了基准测试，为进一步探索科学新闻报道的自动生成奠定了基础。

Mar, 2024

用于讽刺检测的新闻标题数据集

本文介绍了使用 TheOnion 和 HuffPost 两个新闻网站的头条新闻构建的包含两万八千条标题的数据集，其中包含了 13K 个讽刺标题，以辅助对 Twitter 数据噪声问题进行的讽刺检测研究，并探讨了数据集的潜在用途。

Sep, 2022

NELA-GT-2018：一个用于误报研究的大型多标签新闻数据集

本文介绍了一个包含 713k 个文章的数据集，从 194 个新闻和媒体来源中收集，包括主流、极端党派和阴谋论来源，并加入了来自 8 个不同评估网站的基础真实度评级，覆盖了多个真实度维度，包括可靠性、偏见、透明度、遵循新闻标准和消费者信任等。

Apr, 2019

来自全球的多语种新闻标题数据集

Babel Briefings 是一个新颖的数据集，包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题，涵盖了 30 种语言和 54 个地点，其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究，是用于训练或评估语言模型的高质量数据集，同时也提供了一个简单易用的文章集合，用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类，我们展示了该数据集所支持的分析功能，并可视化事件的 “事件签名”，展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取，并附带 GitHub 代码。

Mar, 2024

抽样新闻制作者：一份大型新闻和特写数据集，研究复杂的媒体环境

该研究介绍了一个用于研究新闻制作者策略和社交媒体参与度的大型政治新闻数据集，其中包括 136K + 新闻文章和 130 种基于内容和社交媒体的特征。

Mar, 2018

基于神经网络的虚假新闻标题分类

使用 Kaggle 平台提供的包含 18 年新闻的数据集，通过 TF-IDF 特征提取和神经网络分类器，对新闻标题进行分类，实验结果表明，该神经网络在准确性评估指标上表现最佳，其准确率高达 0.8622，明显优于其它三个模型。

Jan, 2022

FakeNewsNet: 一个数据仓库，提供新闻内容、社交背景和时空信息，用于研究社交媒体上的虚假新闻

通过提供包含新闻内容、社会背景和动态信息的数据集，本文旨在促进对社交媒体上假新闻的传播、检测和干预的研究，强调了假新闻检测的复杂性，并结合多源信息提出了可能的解决方案。

Sep, 2018

航向新闻叙事：媒体偏见分析数据集

媒体偏见分析数据集是一个全面的数据集，涵盖了各种偏见，对检测和分析媒体偏见具有重要价值，可为媒体研究和人工智能领域提供独特的资源。

Nov, 2023

假新闻检测：数据见真章！

这份综合调查是研究人员在进行假新闻检测之旅中不可或缺的资源，通过强调数据集质量和多样性的关键作用，它强调了这些元素对检测模型的有效性和稳健性的重要性。调查详细概述了数据集的关键特征、使用的各种标记系统和可能影响模型性能的普遍偏见。此外，它还涉及关键的伦理问题和最佳实践，为当前可用数据集的情况提供了全面的概述。我们为该领域的贡献进一步丰富，提供了 GitHub 存储库，将公开可访问的数据集汇集到一个单一且用户友好的门户中。这个存储库旨在促进和推动进一步的研究和开发工作，旨在解决普遍存在的假新闻问题。

Jul, 2024

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016