不同意见
我们的研究致力于通过开发语言模型来为合同和政策文件提供自动化、易于理解的摘要和分数,以增强用户理解,促进知情决策。我们在数据集上比较了基于 Transformer 和传统模型,RoBERTa 整体表现更好,达到了 0.74 的 F1 分数。利用我们表现最佳的模型 RoBERTa,我们通过识别 GDPR 文件的重叠部分突出了冗余和潜在的指导方针违规情况,强调了对更严格 GDPR 合规性的必要性。
Apr, 2024
使用文本摘要和集成学习方法,我们提出了一种能够对终端用户许可协议(EULA)进行摘要和分类的解决方案,其中我们提取了不同软件的 EULA 文本,然后使用八种有监督的分类器对文本进行分类。该方法的准确率为 95.8% 表明了其有效性。
Mar, 2024
该论文旨在使用构建的第一个含人类标注的模糊词汇和句子的语料库,对隐私政策的模糊内容进行自动检测,研究上下文敏感和上下文不敏感模型以及辅助分类生成性对抗网络来表征句子模糊性,研究结果表明所提出的方法有效,并提出解决模糊性和提高隐私政策可用性的建议。
Aug, 2018
通过利用大型语言模型(LLM)开展文本分析,本研究构建了 PolicyGPT 隐私政策文本分析框架,并在两个数据集上进行了测试,结果表明在零样本学习条件下,PolicyGPT 取得了强大的性能,并优于传统机器学习和神经网络模型。
Sep, 2023
该研究使用新的注释方案,将条款与条件合同中的不同类型从句子进行分类,旨在帮助法律专家快速识别和评估此类型法律文件中的问题。研究结果表明,通过在多语言 T5 和两种意大利 BERT 模型上进行少样本预训练,可以实现对分类的自动化,精度在 0.79 到 0.95 之间。
Feb, 2024
我们提出了一种自动化的方法来识别和可视化不同细节级别的隐私政策中的数据实践,通过利用 ToS;DR 平台的众包注释,我们尝试使用各种方法将政策摘录与预定义的数据实践描述相匹配,进一步进行了一个案例研究来评估我们的方法在真实政策上的有效性,实验表明我们的方法准确匹配了数据实践描述和政策摘录,为用户呈现了简化的隐私信息。
Feb, 2024
通过 Fine-tuning BERT 与 SVC 的集成,本研究论文展示了对 ToS 文件中不公平条款的最新技术结果,展示了 0.922 的不公平条款检测宏 F1 得分,并在每个标签的不公平条款分类中也表现出卓越的性能。同时,通过回答关于所使用的 Transformer 模型的研究问题进行了比较分析。
Jan, 2024
本文介绍了 PrivacyQA 数据集,以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释,研究表明,当前的神经网络方法在回答隐私政策问题上存在诸多问题,该数据集为未来的问题回答系统提供了巨大的改进空间。
Nov, 2019