使用 X - 向量和神经波形模型进行说话者匿名化

May, 2019

使用 X - 向量和神经波形模型进行说话者匿名化

Speaker Anonymization Using X-vector and Neural Waveform Models

Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen, Massimiliano Todisco...

TL;DR研究表明，使用新的说话人匿名方法来提取语言和说话人身份特征，使用神经声学和波形模型来合成匿名的语音可以有效掩盖说话人身份，同时保持高质量的匿名语音。

Abstract

The social media revolution has produced a plethora of web services to which users can easily upload and share multimedia documents. Despite the popularity and convenience of such services, the sharing of such inherently personal data, including →

social media speech data speaker anonymization neural acoustic models speaker verification

发现论文，激发创造

X-vector 基础发言人匿名化的设计选择

本文针对 VoicePrivacy Challenge 设计了一种基于 x-vector 的柔性伪说话人选择技术，并探索了多种设计选择以评估它的匿名化和实用性，同时使用 LibriSpeech 数据集进行实验，报告了匿名数据的 Equal Error Rate（EER）和解码 Word Error Rate（WER）。

May, 2020

使用解耦表示构建说话人匿名系统是否足够？

本研究通过使用向量量化技术，加强从声学模型中提取特征时的内容和说话人信息的分离，从而改进说话人匿名化技术，并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。

Aug, 2022

基于对说话人嵌入进行对抗扰动的异步语音匿名化

本文研究声音匿名化技术，重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法，采用包含说话人解缠机制的语音生成框架生成匿名语音，并通过对说话人嵌入进行对抗扰动改变说话人特征，同时通过控制扰动强度保留人类感知。实验结果表明，在 LibriSpeech 数据集上处理的 utterances 中，60.71％的处理结果达到了说话人特征的匿名化且保留了人类感知。

Jun, 2024

评估基于语音转换的隐私保护对抗已知攻击者的有效性

本文考察了基于语音转换的匿名化方法，在三种攻击情景中比较了两种基于频率扭曲的转换方法和一种基于深度学习的方法，结果表明语音转换方案不能有效地防止具有广泛知识的攻击者，但可能为不太熟悉的攻击者提供一定的保护。

Nov, 2019

说话者匿名化中使用 X 向量对韦伯漂移进行补偿

本文研究了基于 X-Vector 的说话人匿名化方法，探讨了其匿名化本质和虚拟说话人 X-Vector 特征之间的不匹配现象，提出了一种针对声码器漂移进行补偿的新方法。该方法在降低声码器漂移的同时提升了对 X-Vector 特征的更精细控制，为未来匿名化方法的改进打下了基础。

Jul, 2023

针对 X-Vector 的语音假名化中，基于 F0 修改的性别差异研究

本研究基于 VoicePrivacy 2020 挑战，目的在于对语音进行偏执匿名化，使其不可辨认的同时保持可理解性。通过改变基频等次要语音特征进行偏执匿名化可以取得更好的效果，且源和目标说话者的性别也会影响效果。

Jan, 2021

使用生成对抗网络实现语音匿名化，以保护说话人隐私

本研究利用生成对抗网络与 Wasserstein 距离的 Speaker embeddings 生成方法，将其整合到语音转文字转语音的流程中，成功实现保护隐私的同时保持较高的效能表现。

Oct, 2022

匿名化语音：评估和设计说话人匿名化技术

该论文讨论了语音用户界面的增长，以及由此带来的语音数据收集和存储问题。研究提出了匿名化语音和度量匿名程度的解决方案，并介绍了评估协议需要考虑的挑战，最后探讨了一种新的攻击方法以逆转匿名化。

Aug, 2023

低延迟语音匿名化端到端流模型

提出了一种流式模型来实现低延迟的说话人匿名化，通过使用轻量级内容编码器、预训练的说话人编码器和变化编码器，将语音信息解耦为语音内容、说话人身份和音调能量信息，并通过解码器重新合成语音信号，该模型实现了 230ms 的延迟，并在自然性、可理解性和隐私保护方面保持了最先进的性能。

Jun, 2024

使用向量量化进行保护隐私的语音表示学习

本文提出了一种匿名表示方案，使用矢量量化来限制表示空间并通过禁止说话人身份信息实现对隐私的保护，从而在保留语音识别的基础上实现说话人匿名化。

Mar, 2022