揭开晦涩法律用语的面纱：自动化方法用于隐私政策和服务条款的摘要和重叠分析

Apr, 2024

揭开晦涩法律用语的面纱：自动化方法用于隐私政策和服务条款的摘要和重叠分析

Demystifying Legalese: An Automated Approach for Summarizing and Analyzing Overlaps in Privacy Policies and Terms of Service

PDF

Shikha Soneji, Mitchell Hoesing, Sujay Koujalgi, Jonathan Dodge

TL;DR我们的研究致力于通过开发语言模型来为合同和政策文件提供自动化、易于理解的摘要和分数，以增强用户理解，促进知情决策。我们在数据集上比较了基于 Transformer 和传统模型，RoBERTa 整体表现更好，达到了 0.74 的 F1 分数。利用我们表现最佳的模型 RoBERTa，我们通过识别 GDPR 文件的重叠部分突出了冗余和潜在的指导方针违规情况，强调了对更严格 GDPR 合规性的必要性。

Abstract

The complexities of legalese in terms and policy documents can bind individuals to contracts they do not fully comprehend, potentially leading to uninformed data sharing. Our work seeks to alleviate this issue by developing →

legalese language models automated summaries roberta gdpr compliance

发现论文，激发创造

PolicyGPT: 使用大型语言模型自动分析隐私政策

通过利用大型语言模型（LLM）开展文本分析，本研究构建了 PolicyGPT 隐私政策文本分析框架，并在两个数据集上进行了测试，结果表明在零样本学习条件下，PolicyGPT 取得了强大的性能，并优于传统机器学习和神经网络模型。

Sep, 2023

使用真实语料库进行数据实践的自动检测和分析

我们提出了一种自动化的方法来识别和可视化不同细节级别的隐私政策中的数据实践，通过利用 ToS;DR 平台的众包注释，我们尝试使用各种方法将政策摘录与预定义的数据实践描述相匹配，进一步进行了一个案例研究来评估我们的方法在真实政策上的有效性，实验表明我们的方法准确匹配了数据实践描述和政策摘录，为用户呈现了简化的隐私信息。

Feb, 2024

合同的简明英文概述

该研究旨在以简单易懂的语言对单方面合同，如使用条款等，进行摘要，以帮助用户更好地理解他们正在接受的条款，并呼吁资源和技术的开发以简化和转换法律语言。

Jun, 2019

Polisis: 使用深度学习自动分析和呈现隐私政策

我们提出了一个基于 Polisis 的自动化框架，能够在隐私政策的众多细节方面进行可扩展的、动态的、多维查询。最初的 Polisis 具有一个隐私中心语言模型和神经网络分类器的新等级结构，支持由结构化和自由形式查询支持的两个应用程序：自动分配隐私图标和 PriBot 隐私答案查询。

Feb, 2018

大型语言模型：大规模隐私政策分析的新方法

利用大型语言模型（LLM）以替代传统的自然语言处理技术，在较大规模上从隐私政策中高效准确地提取隐私做法，并实现出色的性能评估和降低成本。

May, 2024

一种基于人机协同的数据稀缺条件下隐私政策信息抽取方法

本文介绍了一种针对隐私政策注释的 “人在回路”（Human-in-the-Loop）原型系统，该系统集成了机器学习生成的建议和最终的人为注释决策，提供了一种特定于数据稀缺性的基于机器学习的建议系统，其提供了有意义的预测，优于其他近期用于法律文件的提取模型的性能。

May, 2023

隐私政策问答：结合计算和法律视角

本文介绍了 PrivacyQA 数据集，以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释，研究表明，当前的神经网络方法在回答隐私政策问题上存在诸多问题，该数据集为未来的问题回答系统提供了巨大的改进空间。

Nov, 2019

关于 GDPR AI 启用的数据保护机构完整性检查的多解决方案研究

在本论文中，我们提出了一种自动化策略，用于对一般数据保护条例（GDPR）下的数据处理协议（DPAs）进行完整性检查。我们使用了以预训练的 BERT 和 RoBERTa 语言模型为基础的十种替代解决方案，并通过对 30 个真实 DPAs 进行 F2 分数计算。结果显示，表现最佳的解决方案分别基于预训练的 BERT 和 RoBERTa 语言模型，其 F2 分数分别为 86.7% 和 89.7%。我们的分析进一步显示，其他基于深度学习（如 BiLSTM）和少样本学习（如 SetFit）的替代解决方案可以实现可比较的准确性，但开发效率更高。

Nov, 2023

应用自然语言理解进行合规性检查：隐私政策与法规比较分析

本研究利用自然语言推断（NLI）技术，采用预训练的嵌入和 BiLSTM 注意力机制，比较大公司的隐私政策与隐私法规，测试发现，在实际 NLI 任务中，基于 MNLI 数据集训练的模型更好。

Mar, 2022

法律文档摘要评估框架

本研究提出了一种基于意图的自动摘要度量，通过在法律文件中注释意图短语，证明了该系统可以被自动化，相比于其他自动化度量如 BLEU，ROUGE-L 等，该度量在人类满意度方面表现更好。

May, 2022