- 去识别并不总是足够
通过对真实临床记录进行去识别并生成合成临床记录,我们发现合成数据表现出与真实数据相似的隐私问题,从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。
- SAIC: 语音匿名化与身份分类的整合
SAIC 是一种集成了语音匿名化和身份分类的创新流程,通过在 Voxceleb1 数据集上表现出色,以 96.1% 的准确率达到了演讲者身份分类任务的最新水平,证明了该模型的有效性和在医疗领域推广的可能性,为未来的工作提供了有价值的指导。
- 超越准确性:大规模真实世界临床文本数据的自动化去识别
构建一个自动化系统以去识别超过十亿条临床笔记,通过使用混合的基于上下文的模型体系结构,在可靠且链接的匿名文档方面提供实用的解决方案。
- 利用自然语言处理进行临床自由文本去识别的当前方法综述
电子健康记录(EHRs)是数据驱动型医学研究的宝贵资源,而去识别(即去除个人健康信息)是使 EHR 数据可供研究目的共享的关键步骤。本研究系统审查了过去 13 年临床自由文本去识别的发展,并报告了目前最先进系统的性能和局限性,并识别了该领域 - 增强 MRI 扫描的隐私保护的 3D 掩蔽自编码器
利用 CP-MAE 提出的模型,通过遮蔽自动编码器对人脸进行去识别,表现出卓越的下游任务性能和去识别效果,同时能够合成高达 $256^3$ 分辨率的扫描,大大增加了体素的数量。
- 基于数据驱动但注重隐私保护的完整身体人物综合征解除行人数据的身份
介绍了一个名为 PDI 的任务,以评估指定去身份识别方法的去身份化程度和下游任务训练绩效,提出了基于生成对抗网络的全身去身份化方法,展示了该方法对乘客识别、探测和跟踪模型的应用及其可行性
- 公平起见:评估医疗记录去识别中的偏差
研究了当前医疗数据中去标识化的方法对于不同人群的名称的错误率和效果差异,并提出了基于机器学习方法和临床背景的去标识化方法改进方案。
- 数据集压缩是否是医疗数据共享的万能药方?
本研究研究了数据集压缩(DC)在 AI 研究中分享保健数据的前景,并取得了有希望的结果,数据集压缩通过压缩容量和加速模型收敛,既实现了正确的去隐私化,又保留了原始的深度学习功能,同时保护数据隐私并加速模型收敛,DC 为多项愿望的保健数据共享 - 临床数据仓库中自然语言处理算法的开发和验证,用于匿名化文件
本研究的目标是解决临床报告去识别化的问题,以允许访问数据以进行研究,同时确保患者隐私。作者通过使用深度学习模型和手动规则,对临床文件进行伪匿名化,取得了 0.99 的 F1 评分,并分享了相关代码和指南。
- DeID-GPT:GPT-4 零痕迹医疗文本去识别
该研究使用 GPT-4 大型语言模型开发了一种名为 DeID-GPT 的新的医学文本数据去识别框架,通过在医学领域使用零 - shot 上下文学习识别模型保护隐私信息,并保留文本的原始结构和含义,比起现有方法 DeID-GPT 的准确性最高 - CVPRRiDDLE:可逆多样化隐私保护与潜在加密
本文使用预先训练的 StyleGAN2 生成器,提出了一种名为 RiDDLE 的加密程序,可以在潜在空间内加密和解密面部身份信息,并具有密码指导的加密等吸引人的特性。该方法通过对比现有方法证实,能够更好地实现去识别任务。
- AAAI利用对抗样本实现人脸生物特征去识别
本文评估了使用两种广为人知的敌对生成方法 (BIM and ILLC) 来去识别个人图像的效果,并发现使用几乎不可察觉的敌对扰动来达到高的保护成功率 (抑制识别率) 并不容易。最后,我们发现敌对样本的可转移性受其生成网络的训练参数的影响非常 - FICGAN: 人脸身份可控式 GAN 用于去身份化
本文提出了一种基于自编码器的条件生成模型 Facial Identity Controllable GAN (FICGAN),利用 k-same 算法对面部图像进行去识别化处理,保证了隐私保护的同时提高了数据利用率。
- ICML从原始音频学习去标识化韵律表征
提出了一种自我对比无监督信号的方法,用于学习从原始音频中去识别的 prosody 表示,可以用于语音理解的新基准测试 DAMMP,检验了该方法所学到的非 timbral prosody 子组件,已达到部分去识别的效果。
- MM基于现代命名实体识别技术的自由文本健康记录去识别化基准测试
本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下,如何更好地去识别和去除医疗记录中的敏感信息,进而使得医疗数据可以用于科学研究。其中,BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之 - EMNLPPHICON:通过数据增强提高临床文本去识别模型的泛化能力
本研究提出使用 PHICON 数据增强方法,即采用命名实体替换和上下文增强模拟保护健康信息从而提高神经模型的鲁棒性和泛化能力,实验证明此方法可显著提高新数据集的 F1 得分。
- 去标识化文本转化的隐私保证
本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证,并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现,只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。
- NLNDE: 西班牙医学文件去识别技术的非语言专家和领域专家方法
该研究论文描述了 NLNDE 系统及其在医学领域中通过 MEDDOCAN 比赛的医疗文件去识别隐私信息任务的应用。该系统成功地将西班牙语数据中的保护健康信息进行序列标记,并在比赛中取得了良好的成绩。
- ACL在临床领域进行联合去标识化和概念提取,缩小差距
本研究聚焦于在医疗领域中对自然语言处理的实际应用,通过研究数据的自动匿名化对概念提取的影响,探究得到同时考虑隐私信息保护和概念提取的最新解决方案。结果表明提出的多任务模型 F1 值达到了 96.1% 和 88.9%,取得了当前最先进的技术水 - 使用生成对抗网络合成逼真的心电图
本文研究应用生成对抗网络(GANs)生成真实且无隐私顾虑的电信号数据,用于医疗培训和数据分析,并就 GANs 产生的合成数据的隐私问题进行讨论。研究结果表明 GANs 的架构成功地生成了与训练集相似且不同样本的时间序列信号,并且能够经受住简