Jul, 2024

POLygraph:波兰假新闻数据集

TL;DR该论文介绍了 POLygraph 数据集,这是一个在波兰进行假新闻检测的独特资源。该数据集包含两个部分:11,360 对新闻文章及相应标签的 “真假” 数据集,以及 5,082 篇新闻文章及相关推文的 “真假评论” 数据集。与现有数据集不同,POLygraph 涵盖了源自文献的多种方法,为假新闻检测提供了全面的资源。数据是通过专家和非专家标注人员的手动注释收集的。该项目还开发了一款使用先进机器学习技术分析数据并确定内容真实性的软件工具。该工具和数据集预计将惠及公共部门机构、出版商和事实核查组织等各种实体。进一步对数据集的研究将促进假新闻检测,可能在其他语言中推动类似模型的实施。该论文侧重于数据集的创建和组成,因此不包括对内容真实性分析软件工具的详细评估,该评估计划在项目的后期进行。