航向新闻叙事:媒体偏见分析数据集
科学新闻报道的自动生成提高了学术洞察的可访问性,本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析,突出了两者在易读性和简洁性上的差异,并使用先进的文本生成模型对数据集进行了基准测试,为进一步探索科学新闻报道的自动生成奠定了基础。
Mar, 2024
本文介绍了一个包含 713k 个文章的数据集,从 194 个新闻和媒体来源中收集,包括主流、极端党派和阴谋论来源,并加入了来自 8 个不同评估网站的基础真实度评级,覆盖了多个真实度维度,包括可靠性、偏见、透明度、遵循新闻标准和消费者信任等。
Apr, 2019
这项研究介绍了一个关于美国政治演讲中的假新闻的数据集,主要研究种族歧视和偏见。通过爬取和注释 40,000 篇新闻文章,使用先进的自然语言处理工具和人工验证,我们提供了对政治言论中的虚假信息的细致理解。该数据集旨在用于机器学习和偏见分析,为研究人员、政策制定者和教育工作者提供了重要资源。它有助于制定应对虚假信息的策略,提升媒体素养,对假新闻和政治沟通的研究作出了重要贡献。我们的数据集侧重于对 2024 年选举背景下的假新闻进行分析,并向公众提供了访问权限。
Dec, 2023
研究表明,媒体的政治偏见会影响受众的政治信仰及投票行为。通过三个手动注释的数据集及不同的可视化策略测试,结果表明手动注释偏见的可视化比框架可视化更有效。通过多层次模型,可以发现记者的偏见与文章的政治极端性和公正性有显著联系。
May, 2021
本论文介绍了一份包含近 21 万篇新闻头条的数据集,收集自 HuffPost,并探讨了该数据集在自然语言处理领域的现有和潜在应用,这对于学习真实新闻的语法和语义至关重要,尤其在当前假新闻泛滥的背景下。
Sep, 2022
这份综合调查是研究人员在进行假新闻检测之旅中不可或缺的资源,通过强调数据集质量和多样性的关键作用,它强调了这些元素对检测模型的有效性和稳健性的重要性。调查详细概述了数据集的关键特征、使用的各种标记系统和可能影响模型性能的普遍偏见。此外,它还涉及关键的伦理问题和最佳实践,为当前可用数据集的情况提供了全面的概述。我们为该领域的贡献进一步丰富,提供了 GitHub 存储库,将公开可访问的数据集汇集到一个单一且用户友好的门户中。这个存储库旨在促进和推动进一步的研究和开发工作,旨在解决普遍存在的假新闻问题。
Jul, 2024
通过收集和注释 Multimodal Video Misleading Headline(VMH)数据集,我们分析了侦测误导性标题的多模态基线,同时注重了注释者对视频误导性的看法和背景与视频内容之间的相互作用。
Oct, 2023
本文展示了一个新颖的数据集,该数据集收集并处理了全球各地新闻或媒体公司在社交媒体上发布的推文,旨在帮助研究人员从多个角度研究有关俄乌冲突的全球议论,包括涉及的主体,持有的态度,原始出处,以及事件中不同概念的表现。
Jun, 2023
该研究介绍了一个用于研究新闻制作者策略和社交媒体参与度的大型政治新闻数据集,其中包括 136K + 新闻文章和 130 种基于内容和社交媒体的特征。
Mar, 2018
本文介绍了第五个 NEDA-GT 数据集,其中包含来自 361 个媒体出版物的 1,778,361 篇文章,并提供了来自媒体偏见 / 事实核查的准确标签。
Mar, 2022