ACLMar, 2024

来自全球的多语种新闻标题数据集

TL;DRBabel Briefings 是一个新颖的数据集,包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题,涵盖了 30 种语言和 54 个地点,其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究,是用于训练或评估语言模型的高质量数据集,同时也提供了一个简单易用的文章集合,用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类,我们展示了该数据集所支持的分析功能,并可视化事件的 “事件签名”,展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取,并附带 GitHub 代码。