Apr, 2024

使用机器学习方法的隐私政策文件摘录文本自动化总结

TL;DR本研究使用两种不同的聚类算法(K 均值聚类和预定义质心聚类)展示了两个隐私政策摘要模型。在评估了十种常用聚类算法后,选择了 K 均值作为第一个模型的聚类算法。基于预定义质心聚类算法的摘要模型通过欧氏距离将每个句子与预定义簇中心进行分离来摘要隐私政策文档。摘要模型的簇中心是根据《通用数据保护条例》中 14 个必须包含在任何隐私声明中的主题进行定义。在两种评估方法(平方距离和 ROUGE)中,预定义质心模型的性能优于 K 均值模型(分别提高了 27% 和 24%)。这一结果与 K 均值模型在运行特定任务评估之前对句子向量的一般聚类效果更好形成对比,表明在无监督机器学习模型上应用特定任务的精调措施的有效性。本文实施的摘要机制展示了一种高效提取隐私政策文档中应包含的重要句子的思路。这些摘要模型可以进一步发展为测试隐私政策文档的《通用数据保护条例》(或任何数据隐私法规)合规性的应用。