该文定义了语音去识别中的实体提取任务,并提出了一种包括音频转录、实体信息提取和音频流对齐等环节的处理流程,并基于 Switchboard 和 Fisher 音频数据集提出了一个新的音频去识别度量标准和评估基准,并对其结果进行了详细说明。
Mar, 2019
本文评估了三种现成的 PII 掩码系统在名称检测和删除方面的性能,发现基于 RoBERTa 的开源系统表现优于商业模型,但是所有系统都存在由于人口统计学差异而存在显著差异的错误率,特别是与黑人和亚洲 / 太平洋岛民个人有关的名称。
May, 2022
通过文本注入方法,在训练数据中包含个人可识别信息的虚假文本替代物,以提高个人可识别信息类别在医疗笔记中的识别,并改善自动语音识别模型的识别准确性。
Aug, 2023
本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证,并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现,只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。
Aug, 2020
本文研究如何通过构建一种可扩展的实体矫正系统 PENTATRON,利用参数化的基于转换器的语言模型学习客户和设备之间的交互模式以及非参数化的个性化实体索引来计算正确的查询,从而帮助下游组件理解最佳响应,提高准确率。通过实验表明,该系统可以使关键指标(精确匹配)提高多达 500.97%。
Oct, 2022
本研究提出了一种有效的方法,使用有噪声的商务电话对话转录本进行训练的命名实体识别 (NER) 模型,使用 LUKE 作为教师模型,使用大量弱标记数据和少量人工标注数据教授一个 smaller DistilBERT-based 学生模型,并在满足商业电话产品实际约束条件的情况下实现高准确性和即时性能
Sep, 2022
构建一个自动化系统以去识别超过十亿条临床笔记,通过使用混合的基于上下文的模型体系结构,在可靠且链接的匿名文档方面提供实用的解决方案。
Dec, 2023
使用基于 Transformer 的模型 AnonCAT,在全球医疗数据中改进了患者隐私保护,通过细调和本地化实现了去标识化算法的真实世界应用蓝图。
Oct, 2023
介绍了一种深度神经网络模型生命周期维护过程,使用成员推理攻击作为合规工具来减少重新训练模型的必要性并实现使用数据清除请求。
Dec, 2020
本文提出一种使用光学字符识别(OCR)和自然语言处理(NLP)技术来从视频中消除个人身份信息的方法,比较了使用 Tesseract 和 Google Cloud Vision(GCV) OCR 模型时的性能,并分析了两种模型在实际应用中的优缺点。
Aug, 2022