使用生成对抗网络实现语音匿名化,以保护说话人隐私
本文研究声音匿名化技术,重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法,采用包含说话人解缠机制的语音生成框架生成匿名语音,并通过对说话人嵌入进行对抗扰动改变说话人特征,同时通过控制扰动强度保留人类感知。实验结果表明,在 LibriSpeech 数据集上处理的 utterances 中,60.71%的处理结果达到了说话人特征的匿名化且保留了人类感知。
Jun, 2024
本文考察了基于语音转换的匿名化方法,在三种攻击情景中比较了两种基于频率扭曲的转换方法和一种基于深度学习的方法,结果表明语音转换方案不能有效地防止具有广泛知识的攻击者,但可能为不太熟悉的攻击者提供一定的保护。
Nov, 2019
该论文讨论了语音用户界面的增长,以及由此带来的语音数据收集和存储问题。研究提出了匿名化语音和度量匿名程度的解决方案,并介绍了评估协议需要考虑的挑战,最后探讨了一种新的攻击方法以逆转匿名化。
Aug, 2023
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异,并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。
Sep, 2017
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
本文提出了基于神经网络的新型语音质量和风格模拟框架,用于合成模仿的声音,并通过生成对抗网络模型构建了快速准确的语音模拟框架,实现了模拟不同性别的声音等功能。
Feb, 2018
研究表明,使用新的说话人匿名方法来提取语言和说话人身份特征,使用神经声学和波形模型来合成匿名的语音可以有效掩盖说话人身份,同时保持高质量的匿名语音。
May, 2019
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
本文中,我们探索了使用原始语音信号通过条件生成对抗网络(GAN)生成说话人的面部图像的潜力。我们使用自监督方法构建模型,同时利用自然对齐的音频和视觉信号,训练出一种从头开始生成面部图像的深度神经网络,没有任何额外的身份信息。我们使用一个新数据集对模型进行了训练,其中包含了高质量视频的演说家表达了非常出色的言语和视觉信号。
Mar, 2019