新闻分类数据集
科学新闻报道的自动生成提高了学术洞察的可访问性,本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析,突出了两者在易读性和简洁性上的差异,并使用先进的文本生成模型对数据集进行了基准测试,为进一步探索科学新闻报道的自动生成奠定了基础。
Mar, 2024
本文介绍了使用 TheOnion 和 HuffPost 两个新闻网站的头条新闻构建的包含两万八千条标题的数据集,其中包含了 13K 个讽刺标题,以辅助对 Twitter 数据噪声问题进行的讽刺检测研究,并探讨了数据集的潜在用途。
Sep, 2022
本文介绍了一个包含 713k 个文章的数据集,从 194 个新闻和媒体来源中收集,包括主流、极端党派和阴谋论来源,并加入了来自 8 个不同评估网站的基础真实度评级,覆盖了多个真实度维度,包括可靠性、偏见、透明度、遵循新闻标准和消费者信任等。
Apr, 2019
Babel Briefings 是一个新颖的数据集,包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题,涵盖了 30 种语言和 54 个地点,其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究,是用于训练或评估语言模型的高质量数据集,同时也提供了一个简单易用的文章集合,用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类,我们展示了该数据集所支持的分析功能,并可视化事件的 “事件签名”,展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取,并附带 GitHub 代码。
Mar, 2024
该研究介绍了一个用于研究新闻制作者策略和社交媒体参与度的大型政治新闻数据集,其中包括 136K + 新闻文章和 130 种基于内容和社交媒体的特征。
Mar, 2018
使用 Kaggle 平台提供的包含 18 年新闻的数据集,通过 TF-IDF 特征提取和神经网络分类器,对新闻标题进行分类,实验结果表明,该神经网络在准确性评估指标上表现最佳,其准确率高达 0.8622,明显优于其它三个模型。
Jan, 2022
通过提供包含新闻内容、社会背景和动态信息的数据集,本文旨在促进对社交媒体上假新闻的传播、检测和干预的研究,强调了假新闻检测的复杂性,并结合多源信息提出了可能的解决方案。
Sep, 2018
这份综合调查是研究人员在进行假新闻检测之旅中不可或缺的资源,通过强调数据集质量和多样性的关键作用,它强调了这些元素对检测模型的有效性和稳健性的重要性。调查详细概述了数据集的关键特征、使用的各种标记系统和可能影响模型性能的普遍偏见。此外,它还涉及关键的伦理问题和最佳实践,为当前可用数据集的情况提供了全面的概述。我们为该领域的贡献进一步丰富,提供了 GitHub 存储库,将公开可访问的数据集汇集到一个单一且用户友好的门户中。这个存储库旨在促进和推动进一步的研究和开发工作,旨在解决普遍存在的假新闻问题。
Jul, 2024
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016