Trustera：一种实时对话去隐私化系统

Mar, 2023

Trustera：一种实时对话去隐私化系统

Trustera: A Live Conversation Redaction System

Evandro Gouvêa, Ali Dadgar, Shahab Jalalvand, Rathi Chengalvarayan, Badrinath Jayakumar...

TL;DRTrustera 是一种可实时红 acting PII 的功能性系统，用于删除代理人需要在保存现场客户代理人对话的自然性时听取敏感信息的需求。

Abstract

trustera, the first functional system that redacts personally identifiable information (pii) in real-time spoken conversations to remove agents' need to hear sensitive information while preserving the naturalness

trustera real-time spoken conversation redaction pii audio masking customer-agent communication

发现论文，激发创造

音频去识别化：一项新的实体识别任务

该文定义了语音去识别中的实体提取任务，并提出了一种包括音频转录、实体信息提取和音频流对齐等环节的处理流程，并基于 Switchboard 和 Fisher 音频数据集提出了一个新的音频去识别度量标准和评估基准，并对其结果进行了详细说明。

Mar, 2019

面具背后：PII 掩码中姓名识别的人口统计学偏见

本文评估了三种现成的 PII 掩码系统在名称检测和删除方面的性能，发现基于 RoBERTa 的开源系统表现优于商业模型，但是所有系统都存在由于人口统计学差异而存在显著差异的错误率，特别是与黑人和亚洲 / 太平洋岛民个人有关的名称。

May, 2022

利用文本注入改善语音中个人标识符的识别

通过文本注入方法，在训练数据中包含个人可识别信息的虚假文本替代物，以提高个人可识别信息类别在医疗笔记中的识别，并改善自动语音识别模型的识别准确性。

Aug, 2023

去标识化文本转化的隐私保证

本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证，并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现，只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。

Aug, 2020

PENTATRON：针对检索式对话理解的个性化上下文感知 Transformer

本文研究如何通过构建一种可扩展的实体矫正系统 PENTATRON，利用参数化的基于转换器的语言模型学习客户和设备之间的交互模式以及非参数化的个性化实体索引来计算正确的查询，从而帮助下游组件理解最佳响应，提高准确率。通过实验表明，该系统可以使关键指标（精确匹配）提高多达 500.97%。

Oct, 2022

一种适用于嘈杂商务电话对话文本的高效实体识别系统

本研究提出了一种有效的方法，使用有噪声的商务电话对话转录本进行训练的命名实体识别 (NER) 模型，使用 LUKE 作为教师模型，使用大量弱标记数据和少量人工标注数据教授一个 smaller DistilBERT-based 学生模型，并在满足商业电话产品实际约束条件的情况下实现高准确性和即时性能

Sep, 2022

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

验证变压器在真实世界的医疗保健中用于电子健康记录的文本遮蔽

使用基于 Transformer 的模型 AnonCAT，在全球医疗数据中改进了患者隐私保护，通过细调和本地化实现了去标识化算法的真实世界应用蓝图。

Oct, 2023

企业级机器去学习中的数据删除

介绍了一种深度神经网络模型生命周期维护过程，使用成员推理攻击作为合规工具来减少重新训练模型的必要性并实现使用数据清除请求。

Dec, 2020

电子显示屏视频中敏感文字的保留与删除

本文提出一种使用光学字符识别（OCR）和自然语言处理（NLP）技术来从视频中消除个人身份信息的方法，比较了使用 Tesseract 和 Google Cloud Vision（GCV） OCR 模型时的性能，并分析了两种模型在实际应用中的优缺点。

Aug, 2022