我们需要多少用户背景信息?心理健康自然语言处理应用中的隐私设计
使用 QA 方法和统一 QA 模型在两个大型的精神健康数据集上评估心理健康风险,并通过差分隐私来保护用户数据,结果表明在精神健康用例中将风险评估建模为 QA 任务具有良好的性能,为隐私保护诊断系统的发展提供了一个有前途的研究方向。
Jun, 2023
基于大型语言模型的系统,在用户隐私方面存在问题,需要更多关注人类隐私问题的研究,包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响,以及赋予终端用户对个人数据的拥有权的工具设计,在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论,为基于大型语言模型的系统中的隐私问题制定议程。
Feb, 2024
本文讨论保护自然语言隐私的技术是否足够广泛,提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护,因此应基于明确为公共使用的文本数据对语言模型进行训练。
Feb, 2022
本学位论文提出了一种用户中心的自然语言处理(NLP)安全框架,并演示了如何改进相关研究的可访问性。该框架主要研究语言上的对抗攻击,并探讨如何通过语言的对抗样本实现隐私保护,并评估文化变革和词汇增强对网络欺凌检测的影响。
Jan, 2023
该研究探讨使用大型语言模型(LLMs)分析 Reddit 用户的文本评论,旨在实现两个主要目标:首先,找出支持预定义心理评估自杀风险的关键摘录;其次,总结材料以证实预先分配的自杀风险水平。该研究仅限于在本地运行的 “开源” LLMs 的使用,从而增强数据隐私。此外,该研究优先考虑计算要求低的模型,使其可供具有有限计算预算的个人和机构使用。该实施策略仅依靠精心设计的提示和语法来指导 LLM 的文本补全。尽管简单,评估指标显示出卓越结果,使其成为一种重要的关注隐私和成本效益的方法。这项工作是 2024 年计算语言学和临床心理学(CLPsych)共享任务的一部分。
Feb, 2024
本文研究了将自然语言处理技术应用于用语言集合进行抑郁症等疾病的诊断中,并探讨了应用差分隐私机制对 BERT、ALBERT、RoBERTa 和 DistilBERT 等语言模型进行中央化和联邦学习时的效果,并提供了开源实现。
Jun, 2021
通过收集健身数据集,进行相关的实证研究,并基于研究结果实现了建议系统,从而帮助用户更好地理解他们的隐私设置,从而更好地保护个人身份信息和表达个人伦理偏好,并实现了较高的准确性。
Apr, 2022
社交 NLP 研究社区近期在心理健康分析的计算进展中见证了构建负责任的 AI 模型,以应对语言使用和自我认知之间的复杂相互作用。我们通过注释 LoST 数据集捕捉到 Reddit 用户帖子中表明低自尊的微妙文本线索,并发现 NLP 模型在确定低自尊时更关注三种类型的文本线索:触发词、LoST 指标和后果词。我们的研究结果表明,在 Reddit 帖子中确定低自尊时,需要将 PLMs 的重点从触发词和后果词转移到更全面的解释上,强调 LoST 指标。
Jan, 2024
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
利用行为研究实验,研究确定实际参与者愿意共享的 epsilon 阈值,以确定涉及敏感文本数据的两个实际 NLP 场景的人们的行为。
Jul, 2023