使用机器学习方法的隐私政策文件摘录文本自动化总结

Apr, 2024

使用机器学习方法的隐私政策文件摘录文本自动化总结

Extractive text summarisation of Privacy Policy documents using machine learning approaches

Chanwoo Choi

TL;DR本研究使用两种不同的聚类算法（K 均值聚类和预定义质心聚类）展示了两个隐私政策摘要模型。在评估了十种常用聚类算法后，选择了 K 均值作为第一个模型的聚类算法。基于预定义质心聚类算法的摘要模型通过欧氏距离将每个句子与预定义簇中心进行分离来摘要隐私政策文档。摘要模型的簇中心是根据《通用数据保护条例》中 14 个必须包含在任何隐私声明中的主题进行定义。在两种评估方法（平方距离和 ROUGE）中，预定义质心模型的性能优于 K 均值模型（分别提高了 27% 和 24%）。这一结果与 K 均值模型在运行特定任务评估之前对句子向量的一般聚类效果更好形成对比，表明在无监督机器学习模型上应用特定任务的精调措施的有效性。本文实施的摘要机制展示了一种高效提取隐私政策文档中应包含的重要句子的思路。这些摘要模型可以进一步发展为测试隐私政策文档的《通用数据保护条例》（或任何数据隐私法规）合规性的应用。

Abstract

This work demonstrates two Privacy Policy (PP) summarisation models based on two different clustering algorithms: k-means clustering and Pre-determined Centroid (PDC) clustering. K-means is decided to be used for

privacy policy summarisation clustering algorithms k-means clustering pre-determined centroid (pdc) clustering gdpr compliance

发现论文，激发创造

隐私保护多文档摘要

本文提出了一种保护隐私的方法，使用安全二进制嵌入哈希方案将包含关键短语和词袋的文档表示转换为位串，使其他方可以获取摘要而不学习原始文档内容，实验结果表明我们的系统在标准多文档评估数据集上与非隐私匹配的系统产生相似的结果。

Aug, 2015

利用确定性点过程和情境化表示进行多文档摘要

本研究分析使用深度上下文表示法的确定性点过程在提取式摘要中的应用，表明虽然使用深度表示法有一定效果，但仍需要使用表面指标来更好地识别摘要句。

Oct, 2019

重温基于质心方法：多文档摘要的坚强基准

本文提出基于质心的模型在文本摘要中的应用，并使用贪心算法来寻找最佳摘要，同时通过选择每个文档中的少量句子来扩展到更大的文本集合。在 DUC2004 数据集中的实验结果表明，该方法能得到与复杂最新方法相当的效果。

Aug, 2017

基于质心预训练的多文档摘要

本文提出了一种简单的预训练目标：选择每个文档簇的基于 ROUGE 的中心点作为摘要，以用于多文件摘要的预训练。通过多个 MDS 数据集的零 - shot 和完全监督实验，我们证明了我们的 Centrum 模型比最先进的模型更好或具有可比性。

Aug, 2022

EROS: 实体驱动的受控策略文档摘要

通过使用受控抽象化摘要方法，我们提出了一种增强政策文件可解释性和可读性的方法，该方法强制要求生成的摘要中包括关键的与隐私有关的实体（如数据和媒介）以及组织收集这些实体的依据（如目标和原因）。我们开发了一个标有隐私相关实体标签的政策文件摘要数据集 PD-Sum。通过基于跨度的实体提取模型 EROS 以及近端策略优化（PPO）来控制摘要的信息内容，比较结果显示相对于各种基准模型，我们提出的模型 EROS 能够得到鼓舞人心的改进。此外，我们提供了定性和人工评估以证明 EROS 的有效性。

Feb, 2024

利用点互信息的非监督式抽取式摘要

通过使用点间互信息（PMI）计算相关性和冗余度量来提高提取性摘要，同时开展贪婪句子选择算法以最大化提取的句子的相关性和最小化冗余度。

Feb, 2021

改进行列式点过程相似性度量用于多文档提取式摘要

本研究旨在通过引入胶囊网络的相似度测量来加强基于 DPP 的多文档摘要方法，以解决大量冗余信息和训练数据短缺等难题。我们使用基于表面形式和语义信息的新相似度测量方法来评估句子对之间的冗余程度，并表明我们改进后的 DPP 系统具有更为出色的表现，超越了基准数据集上的强大摘要基线。

May, 2019

DPM：通过分离对敏感数据进行聚类

通过优化数据集的分割器，以差分隐私方式搜索准确的数据点分隔符的差分隐私聚类算法 DPM 在聚类度量不变性方面取得了显著的改善。

Jul, 2023

基于质心的多文档摘要：句子提取、基于效用的评估和用户研究

本文介绍了一种多文档摘要器 MEAD，它使用由主题检测和跟踪系统产生的聚类中心来生成摘要。我们还描述了基于句子效用和包容性的两种新技术，这些技术已应用于单个和多个文档摘要的评估。最后，我们描述了两项用户研究，测试了我们的多文档摘要模型。

May, 2000

PolicyGPT: 使用大型语言模型自动分析隐私政策

通过利用大型语言模型（LLM）开展文本分析，本研究构建了 PolicyGPT 隐私政策文本分析框架，并在两个数据集上进行了测试，结果表明在零样本学习条件下，PolicyGPT 取得了强大的性能，并优于传统机器学习和神经网络模型。

Sep, 2023