- 在阴影中起舞:利用模糊性实现更公平的分类器
该文介绍了一种新的方法,用于增强在只部分了解敏感信息的情况下的算法公正性。我们建议利用对于敏感属性而言身份不确定的实例来训练传统的机器学习分类器。分类器的最终预测中观察到的公平改善,突出了优先考虑模糊性(即非规范性)以提高现实世界分类任务中 - 自动驾驶中基于大型语言模型的超对齐框架
我们的研究引入了一个新的安全框架,利用多智能体大语言模型(LLMs)来保护自动驾驶车辆的敏感信息,同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面,并 - KDD面向公平认知诊断的路径特定因果推理
利用传感器信息,提出了一种 CAER 方法应对涂装缺陷检测中困扰自动涂装工业环境传感器信息异常的问题。
- 模型无关的保护实用性的生物识别信息匿名化
利用生物识别技术的高风险性及潜在隐私问题,本文提出了一种新颖的数据转换框架,可实现对生物识别数据的匿名化处理,以降低敏感信息泄露的风险并保留下游机器学习分析所需的特征。实验证明了该框架能通过高度抑制敏感信息的方式,同时保持数据的实用性,从而 - 使用敏感领域数据进行安全训练:利用数据分割减轻链接攻击
使用破碎的数据取代全文本,对文本生成模型进行细化以减少敏感信息泄露和链接攻击的风险,并且得到与完整数据训练相当的分类结果。
- 最低特权学习的基本限制
我们提供了机器学习中最小权限原则的第一个形式化定义,证明了在表示与任务之间存在着效用和信息泄露的根本权衡,无论采用何种技术和数据集学习特征映射,都无法同时实现对任务的高效用和避免泄露非任务标签属性的目标。
- 自适应领域推断攻击
深度神经网络在敏感应用领域(如医疗保健和安全)中的使用日益增多,了解这些模型能推断出什么样的敏感信息是必要的。本研究探讨了当从模型 API 中删除领域信息是否能保护模型免受攻击,并提出了自适应领域推断攻击(ADI)方法,通过建立概念层次结构 - 隐私标签的多标记学习
通过隐私标签单元对多标签学习中的敏感信息进行保护,提出了一种名为隐私标签多标签学习(MLLPL)的新设置,并通过最小化隐私标签单元损失(PLUL)学习最优分类器。在多个基准数据集上的实验结果表明了该方法的有效性和优越性。
- EmbAu: 一种利用混沌蛙跳算法嵌入音频数据的新技术
本文介绍和比较了我们提出的隐写方法与现有隐写方法,目标是提高隐写算法的容量、保持图像外观并抵御隐写分析攻击。
- 超越特定领域的文本清洗:基于大型语言模型的零射手密封 & 替换
使用大型语言模型,我们提出了一种零偏差文本消毒技术,它能够检测和替换潜在的敏感信息,既保护隐私,又保持文本的连贯性和上下文信息,为下游任务保留数据效用。
- 机器学习模型隐私成员推断攻击的基本限制
会员推断攻击可以揭示出某个特定数据点是否属于训练数据集,并潜在地暴露个人敏感信息。本文探讨了与机器学习模型上的会员推断攻击相关的基本统计限制。具体而言,我们首先推导了统治这类攻击的有效性与成功的统计量。然后,我们研究了几种情况,并提供了对这 - LLMs 下的敏感信息能够被删除吗?防御抽取攻击的目标
提出了攻击和防御框架用于直接删除模型权重中的敏感信息,研究表明即使使用先进的模型编辑方法,也很难真正从语言模型中删除敏感信息,并提供了一些防御方法来抵御抽取攻击。
- 大型语言模型的知识清洗
我们探索了一种知识消毒方法,用于减轻与大型语言模型(LLMs)相关的隐私问题。我们的方法通过微调模型,在查询特定信息时,促使其生成无害回答,如 “我不知道”。实验证实,我们的简单方法不仅最小化了特定知识泄漏,还保留了 LLM 的整体性能。这 - 化学数据审查以减轻双重使用风险
本文提出了一种基于模型的方法来有选择性地噪声化数据集,同时保留有利于深度神经网络训练的数据,以减轻化学领域中化学数据集恶意使用的风险,结果表明,选择性噪声化暴露的数据集具有对敏感标签预测产生控制的模型方差和偏差的作用,并且省略敏感数据往往增 - 问答中的保密
通过设计和实现一个概念验证体系结构来教授一个问题回答系统保持特定事实的秘密,但也需要更多的研究以减少系统偏执(假阳性),信息泄漏(假阴性)并将该工作的实现扩展到在信息聚合的情况下保持保密的更复杂的问题。
- InterFair: 具有自然语言反馈的去偏见公平可解释预测
该研究论文提出,自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置,而不是盲目地消除它,为了实现公平平衡,研究人员建议采用能够与用户互动并提供反馈的交互式方法,从而在任务表现和偏置缓解之间实现更好和公正的平衡,并支持详尽的解释。
- ACLBERT 在临床笔记上的预训练是否会透露敏感数据?
本文描述了一系列旨在从已训练的 BERT 模型中恢复个人健康信息 (PHI) 的方法,同时提供了实验设置和基准探测模型,以促进类似研究。结果显示简单的探测方法无法有效地从 MIMIC-III EHR 训练的 BERT 中提取敏感信息,但更复 - 嵌入模型中的信息泄漏
文中指出,将原始输入数据映射为低维向量表示的嵌入函数,不仅会对基础语义信息进行编码,也会泄漏输入数据的敏感信息。本文采用三种攻击方式系统研究嵌入函数泄露的信息,即向量反演、敏感属性提取和信息泄漏。研究发现各种嵌入模型都存在不同程度泄漏,但同 - Wasserstein 公平分类
我们提出了一种公平分类的方法,通过最小化 Wasserstein-1 距离来强制执行分类器输出和敏感信息之间的独立性。我们引入了不同的方法,在测试时隐藏敏感信息,或具有简单快速的实现,并展示了在多个基准公平性数据集上与不同公平性基线的实证表 - CVPR最大熵方法在图像表示中的信息泄漏缓解
本文探讨了学习最小化图像表示中的信息泄露的问题,并通过对抗性非零和游戏的形式表述该问题,提出了一种新方法。实验结果表明,该方法能够学习高任务性能的图像表示,同时减少了预定义敏感信息的泄露。