世界的两个故事:广泛使用的世界新闻数据集 GDELT 和 EventRegistry 的比较
本文运用 GDELT 项目所收集的大规模新闻报道数据集,通过分层(混合效应)回归模型,揭示了全球灾难新闻报道的结构及其决定因素。结果表明许多变量,例如人口数量、政治稳定性和灾害破坏程度等,与既有研究趋势一致。同时,强烈的地域主义发现强调了进行全球新闻报道研究的综合性数据集的必要性。
Oct, 2014
本研究基于 Event Registry 系统,使用基于 Wikipedia 的不同语言交叉文档相似度计算方法,解决了多语言流的新闻推送跟踪,提出了一种链接不同语言文章聚集的方法,并对整个系统进行了充分评估。
Dec, 2015
Babel Briefings 是一个新颖的数据集,包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题,涵盖了 30 种语言和 54 个地点,其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究,是用于训练或评估语言模型的高质量数据集,同时也提供了一个简单易用的文章集合,用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类,我们展示了该数据集所支持的分析功能,并可视化事件的 “事件签名”,展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取,并附带 GitHub 代码。
Mar, 2024
本文介绍了在 Wikidata 中创建一种将新闻标题映射到事件类别的基准数据集的方法,并提供了用于评估执行映射的方法的资源。我们使用该数据集研究了两类无监督方法:1)经典实体链接方法的改进,以及 2)将问题视为零样本文本分类问题的方法。我们评估了现成的实体链接系统和预训练的自然语言推理(NLI)模型以及大型生成式语言模型。我们提供了评估结果、经验教训和未来工作方向。数据集和评估脚本已公开提供。
Dec, 2023
本论文介绍了一份包含近 21 万篇新闻头条的数据集,收集自 HuffPost,并探讨了该数据集在自然语言处理领域的现有和潜在应用,这对于学习真实新闻的语法和语义至关重要,尤其在当前假新闻泛滥的背景下。
Sep, 2022
本论文提供了一个实用的通用事件检测数据集 GLEN,它使用了现有注释的 PropBank 作为远程监督,提出了一个新的多阶段事件检测模型,能够有效处理大本体大小和标签噪声问题,并在性能上表现出优越性。
Mar, 2023
本文提出一种使用 Wikidata 知识库的方法来产生新闻文章的语义注释,并描述了一种语义搜索引擎,支持基于关键词的搜索和结构化数据搜索。
Apr, 2019
本文将命名实体概念扩展至命名事件,提出了一种在新闻文章中发现包含该类事件信息的特定段落的方法并报告初步评估结果。使用 Amazon Mechanical Turk 服务获取 Gold Standard 数据的方法也被介绍。
Jun, 2013
本文提出了一种从文本中支持文化分析的方法,通过不同地理位置中不同类别的新闻事件(社会、商业、健康、娱乐、科学、购物、体育、艺术、计算机、游戏和家庭)的分类,演示了该方法的实用性。我们根据不同国家 / 地区遵循的文化将国家 / 地区进行分组,并根据其内容类别筛选新闻事件。然后利用 Hofstede 的文化维度自动标记新闻事件,并提供不同分类方法的表现,同时也比较了不同特征数量,以找到适合表示文化的特征集。
Jan, 2023
科学新闻报道的自动生成提高了学术洞察的可访问性,本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析,突出了两者在易读性和简洁性上的差异,并使用先进的文本生成模型对数据集进行了基准测试,为进一步探索科学新闻报道的自动生成奠定了基础。
Mar, 2024