我们提出了一种自动化的方法来识别和可视化不同细节级别的隐私政策中的数据实践,通过利用 ToS;DR 平台的众包注释,我们尝试使用各种方法将政策摘录与预定义的数据实践描述相匹配,进一步进行了一个案例研究来评估我们的方法在真实政策上的有效性,实验表明我们的方法准确匹配了数据实践描述和政策摘录,为用户呈现了简化的隐私信息。
Feb, 2024
通过利用大型语言模型(LLM)开展文本分析,本研究构建了 PolicyGPT 隐私政策文本分析框架,并在两个数据集上进行了测试,结果表明在零样本学习条件下,PolicyGPT 取得了强大的性能,并优于传统机器学习和神经网络模型。
Sep, 2023
本文介绍了 PrivacyQA 数据集,以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释,研究表明,当前的神经网络方法在回答隐私政策问题上存在诸多问题,该数据集为未来的问题回答系统提供了巨大的改进空间。
Nov, 2019
提出 PolicyQA,用于针对现有隐私政策发布的 25,017 个阅读理解问题的数据集,包括 714 个针对隐私实践的人工标注问题,并评估了两种现有的神经问答模型并进行了严格的分析。
Oct, 2020
本文提出 PolicyIE 数据集,对比两种基准神经方法处理语义意图分类和信息填充。结果表明序列到序列(Seq2Seq)模型在信息填充任务上优于序列标注方法。
Jan, 2021
我们提出了一个基于 Polisis 的自动化框架,能够在隐私政策的众多细节方面进行可扩展的、动态的、多维查询。最初的 Polisis 具有一个隐私中心语言模型和神经网络分类器的新等级结构,支持由结构化和自由形式查询支持的两个应用程序:自动分配隐私图标和 PriBot 隐私答案查询。
Feb, 2018
本文介绍了一种针对隐私政策注释的 “人在回路”(Human-in-the-Loop)原型系统,该系统集成了机器学习生成的建议和最终的人为注释决策,提供了一种特定于数据稀缺性的基于机器学习的建议系统,其提供了有意义的预测,优于其他近期用于法律文件的提取模型的性能。
May, 2023
本文介绍了使用自然语言处理技术分析隐私政策以帮助用户理解及满足法规要求的必要性,并构建了首个中文隐私政策数据集 CA4P-483,用于帮助隐私政策和软件间的序列标记任务和法规合规识别。
Dec, 2022
通过多种任务的评估,我们介绍了隐私政策语言理解评估(PLUE)基准,并收集了大量的隐私政策,以促进未来该领域的研究;同时,我们证明了领域特定的预训练对所有任务都有性能提升。
本文通过集成检索模型和利用多个预训练语言模型及去噪防护,开发了一种新型数据增强框架,以捕获未标记的策略文件中的相关文本段,并扩展训练集中的正面示例。使用此增强数据,该研究在 PrivacyQA 基准测试中将现有水平提高了 10% F1,实现了 50% 的新水平。(其中,F1 是一种综合度量,用于评估二元分类器的准确性。)
Apr, 2022