我们需要多少用户背景信息？心理健康自然语言处理应用中的隐私设计

Sep, 2022

我们需要多少用户背景信息？心理健康自然语言处理应用中的隐私设计

How Much User Context Do We Need? Privacy by Design in Mental Health NLP Application

Ramit Sawhney, Atula Tejaswi Neerkaje, Ivan Habernal, Lucie Flek

TL;DR本文探讨在严格保护用户隐私的前提下，提高数据量以增进所有相关方的利益的方法，并通过对 Twitter 和 Reddit 上两个现有问题的分析，展示了如何在保证用户隐私的同时，通过建模更多的用户上下文，实现效用的保存。

Abstract

clinical nlp tasks such as mental health assessment from text, must take social constraints into account - the performance maximization must be constrained by the utmost importance of guaranteeing →

clinical nlp tasks mental health assessment privacy consumer protection regulations differential privacy

发现论文，激发创造

在线心理健康风险评估隐私感知问答系统

使用 QA 方法和统一 QA 模型在两个大型的精神健康数据集上评估心理健康风险，并通过差分隐私来保护用户数据，结果表明在精神健康用例中将风险评估建模为 QA 任务具有良好的性能，为隐私保护诊断系统的发展提供了一个有前途的研究方向。

Jun, 2023

大语言模型时代的以人为中心的隐私研究

基于大型语言模型的系统，在用户隐私方面存在问题，需要更多关注人类隐私问题的研究，包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响，以及赋予终端用户对个人数据的拥有权的工具设计，在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论，为基于大型语言模型的系统中的隐私问题制定议程。

Feb, 2024

语言模型维护隐私的含义是什么？

本文讨论保护自然语言隐私的技术是否足够广泛，提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护，因此应基于明确为公共使用的文本数据对语言模型进行训练。

Feb, 2022

自然语言处理中的用户中心安全

本学位论文提出了一种用户中心的自然语言处理（NLP）安全框架，并演示了如何改进相关研究的可访问性。该框架主要研究语言上的对抗攻击，并探讨如何通过语言的对抗样本实现隐私保护，并评估文化变革和词汇增强对网络欺凌检测的影响。

Jan, 2023

大型语言模型的心理评估：注重隐私且具有成本效益的方法

该研究探讨使用大型语言模型（LLMs）分析 Reddit 用户的文本评论，旨在实现两个主要目标：首先，找出支持预定义心理评估自杀风险的关键摘录；其次，总结材料以证实预先分配的自杀风险水平。该研究仅限于在本地运行的 “开源” LLMs 的使用，从而增强数据隐私。此外，该研究优先考虑计算要求低的模型，使其可供具有有限计算预算的个人和机构使用。该实施策略仅依靠精心设计的提示和语法来指导 LLM 的文本补全。尽管简单，评估指标显示出卓越结果，使其成为一种重要的关注隐私和成本效益的方法。这项工作是 2024 年计算语言学和临床心理学（CLPsych）共享任务的一部分。

Feb, 2024

BERT 模型的差分隐私和联邦学习基准测试

本文研究了将自然语言处理技术应用于用语言集合进行抑郁症等疾病的诊断中，并探讨了应用差分隐私机制对 BERT、ALBERT、RoBERTa 和 DistilBERT 等语言模型进行中央化和联邦学习时的效果，并提供了开源实现。

Jun, 2021

利用隐私配置授权数字社会用户

通过收集健身数据集，进行相关的实证研究，并基于研究结果实现了建议系统，从而帮助用户更好地理解他们的隐私设置，从而更好地保护个人身份信息和表达个人伦理偏好，并实现了较高的准确性。

Apr, 2022

用户笔文中心理概念抽取与分类的可靠性分析

社交 NLP 研究社区近期在心理健康分析的计算进展中见证了构建负责任的 AI 模型，以应对语言使用和自我认知之间的复杂相互作用。我们通过注释 LoST 数据集捕捉到 Reddit 用户帖子中表明低自尊的微妙文本线索，并发现 NLP 模型在确定低自尊时更关注三种类型的文本线索：触发词、LoST 指标和后果词。我们的研究结果表明，在 Reddit 帖子中确定低自尊时，需要将 PLMs 的重点从触发词和后果词转移到更全面的解释上，强调 LoST 指标。

Jan, 2024

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

分享与否：普通民众愿意为了提供差分隐私自然语言处理系统而接受哪些风险？

利用行为研究实验，研究确定实际参与者愿意共享的 epsilon 阈值，以确定涉及敏感文本数据的两个实际 NLP 场景的人们的行为。

Jul, 2023