沙特隐私政策数据集

Apr, 2023

The Saudi Privacy Policy Dataset

Hend Al-Khalifa, Malak Mashaabi, Ghadi Al-Yahya, Raghad Alnashwan

TL;DR本研究收集并创建了一份包括来自沙特阿拉伯不同行业的个人数据保护政策的汇编，这些政策经过了根据《个人数据保护法》的 10 项原则进行的注释。最终数据集可以用于评估隐私政策合规性、制定自动化工具以监测数据保护法规遵从性的数据分析。

Abstract

This paper introduces the Saudi Privacy Policy Dataset, a diverse compilation of Arabic privacy policies from various sectors in saudi arabia, annotated according to the 10 principles of the →

saudi arabia privacy policies personal data protection law gdpr annotated dataset

发现论文，激发创造

一个用于序列标注和合规识别的细粒度中国软件隐私政策数据集

本文介绍了使用自然语言处理技术分析隐私政策以帮助用户理解及满足法规要求的必要性，并构建了首个中文隐私政策数据集 CA4P-483，用于帮助隐私政策和软件间的序列标记任务和法规合规识别。

Dec, 2022

使用真实语料库进行数据实践的自动检测和分析

我们提出了一种自动化的方法来识别和可视化不同细节级别的隐私政策中的数据实践，通过利用 ToS;DR 平台的众包注释，我们尝试使用各种方法将政策摘录与预定义的数据实践描述相匹配，进一步进行了一个案例研究来评估我们的方法在真实政策上的有效性，实验表明我们的方法准确匹配了数据实践描述和政策摘录，为用户呈现了简化的隐私信息。

Feb, 2024

PolicyQA：一份隐私政策阅读理解数据集

提出 PolicyQA，用于针对现有隐私政策发布的 25,017 个阅读理解问题的数据集，包括 714 个针对隐私实践的人工标注问题，并评估了两种现有的神经问答模型并进行了严格的分析。

Oct, 2020

隐私政策问答：结合计算和法律视角

本文介绍了 PrivacyQA 数据集，以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释，研究表明，当前的神经网络方法在回答隐私政策问题上存在诸多问题，该数据集为未来的问题回答系统提供了巨大的改进空间。

Nov, 2019

更多数据类型更多问题：隐私政策复杂性、稳定性和敏感性的时间分析

研究了 1997-2019 年间来自隐私政策的大型文本数据集，以调查数据经纪人和数据处理器的数据收集活动。同时，研究开发了一个 PII 相关术语的词汇表，用于识别被收集的数据类型，并通过对隐私政策的稳定性、复杂性和敏感性的 mesoscale 分析，研究了隐私政策以及相关立法变化对数据类型和隐私政策的影响。结果发现，隐私立法与 PII 数据类型在隐私政策中的稳定性和动荡程度的变化呈正相关；隐私政策的复杂性随着时间的推移而降低并变得更加规范化；而敏感度则随着时间的推移而上升，并在新隐私立法出台时出现突增。

Feb, 2023

创建和分析一个国际隐私法律语料库

本文研究全球隐私法律法规，提出 “政府隐私指令语料库” 以分析法规聚焦点和演化。结果表明，个人数据类型受到隐私法规约管的比率和数量之间存在巨大差异，而主题建模分析表明金融、医疗卫生和电信等领域是当前隐私法规的主要关注点。同时，文章发布了语料库供研究社区进一步研究使用。

Jun, 2022

Polisis: 使用深度学习自动分析和呈现隐私政策

我们提出了一个基于 Polisis 的自动化框架，能够在隐私政策的众多细节方面进行可扩展的、动态的、多维查询。最初的 Polisis 具有一个隐私中心语言模型和神经网络分类器的新等级结构，支持由结构化和自由形式查询支持的两个应用程序：自动分配隐私图标和 PriBot 隐私答案查询。

Feb, 2018

PolicyGPT: 使用大型语言模型自动分析隐私政策

通过利用大型语言模型（LLM）开展文本分析，本研究构建了 PolicyGPT 隐私政策文本分析框架，并在两个数据集上进行了测试，结果表明在零样本学习条件下，PolicyGPT 取得了强大的性能，并优于传统机器学习和神经网络模型。

Sep, 2023

应用自然语言理解进行合规性检查：隐私政策与法规比较分析

本研究利用自然语言推断（NLI）技术，采用预训练的嵌入和 BiLSTM 注意力机制，比较大公司的隐私政策与隐私法规，测试发现，在实际 NLI 任务中，基于 MNLI 数据集训练的模型更好。

Mar, 2022

使用机器学习方法的隐私政策文件摘录文本自动化总结

本研究使用两种不同的聚类算法（K 均值聚类和预定义质心聚类）展示了两个隐私政策摘要模型。在评估了十种常用聚类算法后，选择了 K 均值作为第一个模型的聚类算法。基于预定义质心聚类算法的摘要模型通过欧氏距离将每个句子与预定义簇中心进行分离来摘要隐私政策文档。摘要模型的簇中心是根据《通用数据保护条例》中 14 个必须包含在任何隐私声明中的主题进行定义。在两种评估方法（平方距离和 ROUGE）中，预定义质心模型的性能优于 K 均值模型（分别提高了 27% 和 24%）。这一结果与 K 均值模型在运行特定任务评估之前对句子向量的一般聚类效果更好形成对比，表明在无监督机器学习模型上应用特定任务的精调措施的有效性。本文实施的摘要机制展示了一种高效提取隐私政策文档中应包含的重要句子的思路。这些摘要模型可以进一步发展为测试隐私政策文档的《通用数据保护条例》（或任何数据隐私法规）合规性的应用。

Apr, 2024